Python实现层次聚类
层次聚类是数据挖掘中常用的一种聚类方法,它可以将数据集中的样本分组,使得每一组内的样本相似度最大,不同组之间的样本相似度最小。Python实现层次聚类的方法有很多,其中最常用的是使用Scikit-learn库中的AgglomerativeClustering类。
使用AgglomerativeClustering类实现层次聚类
AgglomerativeClustering类是Scikit-learn库中用于实现层次聚类的类,它可以将数据集中的样本分为多个组,使得每一组内的样本相似度最大,不同组之间的样本相似度最小。使用AgglomerativeClustering类实现层次聚类的步骤如下:
- 创建一个AgglomerativeClustering类的实例,并指定聚类中心的个数。
- 使用fit()方法将数据集中的样本聚类,fit()方法的输入参数是一个n_samples行n_features列的矩阵,表示数据集中的样本。
- 使用labels_属性可以获得每个样本所属的类别。
# 导入AgglomerativeClustering类 from sklearn.cluster import AgglomerativeClustering # 创建AgglomerativeClustering类的实例,指定聚类中心的个数为3 clustering = AgglomerativeClustering(n_clusters=3) # 使用fit()方法将数据集中的样本聚类 clustering.fit(X) # 使用labels_属性获得每个样本所属的类别 labels = clustering.labels_
以上就是使用Python实现层次聚类的方法,它可以将数据集中的样本分组,使得每一组内的样本相似度最大,不同组之间的样本相似度最小。