散文網(wǎng) » 生活 »日常 » Python用 tslearn 進(jìn)行時(shí)間序列聚類可視化

Python用 tslearn 進(jìn)行時(shí)間序列聚類可視化

2023-08-25 00:19 作者:拓端tecdat 0人讀過 | 我要投稿

全文鏈接：https://tecdat.cn/?p=33484

原文出處：拓端數(shù)據(jù)部落公眾號(hào)

我們最近在完成一些時(shí)間序列聚類任務(wù)，偶然發(fā)現(xiàn)了 tslearn 庫。我很想看看啟動(dòng)和運(yùn)行 tslearn 已內(nèi)置的聚類有多簡單，結(jié)果發(fā)現(xiàn)非常簡單直接。

首先，讓我們導(dǎo)入我們需要的庫：

import pandas as pdimport numpy as npfrom tslearn.preprocessing import TimeSeriesScalerMeanVariance

netdata_pandas 用于提取一些時(shí)間序列數(shù)據(jù)到 pandas 數(shù)據(jù)框中。

plots為我添加了常用的繪圖功能，我發(fā)現(xiàn)自己一次又一次地回到了這個(gè)庫中。

我們定義輸入，基本上任何我們可以使用和更改的東西都值得作為輸入添加到筆記本的頂部：

n_clusters = 50 # number of clusters to fitsmooth_n = 15 # n observations to smooth overmodel = 'kmeans' # one of ['kmeans','kshape','kernelkmeans','dtw']

接下來，我們將獲取數(shù)據(jù)并進(jìn)行一些標(biāo)準(zhǔn)的預(yù)處理：

if n_charts: ? ?charts = np.random.choice(get_chart_list(host), n_charts).tolist() ? ?print(charts)else: ? ?charts = get_chart_list(host)# get datadf = get_data(host, charts, after=-n, before=0)if smooth_n > 0: ? ?if smooth_func == 'mean': ? ? ? ?df = df.rolling(smooth_n).mean().dropna(how='all') ? ?elif smooth_func == 'max': ? ? ? ?df = df.rolling(smooth_n).max().dropna(how='all') ? ?elif smooth_func == 'min': ? ? ? ?df = df.rolling(smooth_n).min().dropna(how='all') ? ?elif smooth_func == 'sum': ? ? ? ?df = df.rolling(smooth_n).sum().dropna(how='all') ? ?else: ? ? ? ?df = df.rolling(smooth_n).mean().dropna(how='all')print(df.shape)df.head()

然后用 tslearn 建立我們的聚類模型了：

if model == 'kshape': ? ?model = KShape(n_clusters=n_clusters, max_iter=10, n_init=2).fit(X)elif model == 'kmeans': ? ?model = TimeSeriesKMeans(n_clusters=n_clusters,

有了聚類集群后，我們就可以制作一些輔助對象供以后使用：

cluster_metrics_dict = df_cluster.groupby(['cluster'])['metric'].apply(lambda x: [x for x in x]).to_dict()cluster_len_dict = df_cluster['cluster'].value_counts().to_dict()clusters_final.sort()df_cluster.head()

最后，讓我們分別繪制每個(gè)聚類群組，看看有什么結(jié)果：

for cluster_number in clusters_final:  ? ?x_corr = df[cluster_metrics_dict[cluster_number]].corr().abs().values ?  ? ?plot_lines(df, cols=cluster_metrics_dict[cluster_number], renderer='colab', theme=None, title=plot_title)

這里有一些很好的例子：