【Python】聚类算法中确定最佳聚类数的指标-Davies-Bouldin指数

neunms

免责声明：网站内容仅供个人学习记录，禁做商业用途，转载请注明出处。

版权所有 © 2017-2020 NEUSNCP个人学习笔记辽ICP备17017855号-2

【Python】聚类算法中确定最佳聚类数的指标-Davies-Bouldin指数

neunms 2020年6月6日 20:50:59

如果数据集的标签未知，则可以使用Davies-Bouldin指数来评估聚类的效果，是由David D. Bouldin和Donald W.提出的一种评估聚类算法优劣的指标，其中Davies-Bouldin指数越低，则说明聚类效果越好。该指数表示聚类之间的平均“相似度”，其中相似度是将聚类之间的距离与聚类本身的大小进行比较的度量。零是最低的分数。接近零的值表示更好的聚类。

在使用中，将Davies-Bouldin指数应用于聚类分析的结果，如下所示：

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
from sklearn.cluster import KMeans
from sklearn.metrics import davies_bouldin_score
kmeans = KMeans(n_clusters=3, random_state=1).fit(X)
labels = kmeans.labels_
davies_bouldin_score(X, labels)

该指数的优点：

Davies-Bouldin的计算比Silhouette分数更简单。
索引仅计算数据集固有的数量和特征。

参考文献：
2.3.10. Clustering performance evaluation
DAVIES D L, BOULDIN D W. A Cluster Separation Measure [J]. IEEE Trans Pattern Anal Mach Intell, 1979, PAMI-1(2): 224-7.

最近更新： 2020年6月6日 21:03:15

浏览： 6.8K

您的评论 *

[[total]] 条评论

添加评论

[[item.time]]

[[item.user.username]] [[item.floor]]楼

[[cc.time]]

[[cc.user.username]] #[[cc.room]]

- «
- 1
- ...
- [[i]]
- ...
- »

点击加载更多……
添加评论
登录后即可回复

添加评论登录后即可回复

neunms

12

688

【Python】聚类算法中确定最佳聚类数的指标-Davies-Bouldin指数

[[total]] 条评论