【Python】聚类算法中确定最佳聚类数的指标-Davies-Bouldin指数

neunms    2020-06-06 20:50

        如果数据集的标签未知,则可以使用Davies-Bouldin指数来评估聚类的效果,是由David D. BouldinDonald W.提出的一种评估聚类算法优劣的指标,其中Davies-Bouldin指数越低,则说明聚类效果越好。该指数表示聚类之间的平均“相似度”,其中相似度是将聚类之间的距离与聚类本身的大小进行比较的度量。零是最低的分数。接近零的值表示更好的聚类。

        在使用中,将Davies-Bouldin指数应用于聚类分析的结果,如下所示:
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
from sklearn.cluster import KMeans
from sklearn.metrics import davies_bouldin_score
kmeans = KMeans(n_clusters=3, random_state=1).fit(X)
labels = kmeans.labels_
davies_bouldin_score(X, labels)
该指数的优点:
  1. Davies-Bouldin的计算比Silhouette分数更简单。
  2. 索引仅计算数据集固有的数量和特征。
参考文献:
2.3.10. Clustering performance evaluation
DAVIES D L, BOULDIN D W. A Cluster Separation Measure [J]. IEEE Trans Pattern Anal Mach Intell, 1979, PAMI-1(2): 224-7.
 
Last Modified: 2020-06-06 21:03
Views: 5.5K

[[total]] comments

Post your comment
  1. [[item.time]]
    [[item.user.username]] [[item.floor]]Floor
  2. Click to load more...
  3. Post your comment