聚类算法的性能度量

(1)在选择聚类算法之前,首先来了解什么样的聚类结果是比较好的。我们希望同一个簇内的样本尽可能相似,不同簇的样本尽可能不同,也就是说聚类结果的簇内相似度高且簇间相似度低。 DB指数(Davies-Bouldin Index,简称DBI) Dumn指数(Dumn Index,简称DI) DB指数的计算方法是任意两个簇内样本的平均距离之和除以两个簇的中心点距离,并取最大值,DBI的值越小,意味着簇内距离越小,同时簇间的距离越大;Dumn指数的计算方法是任意两个簇的最近样本间的距离除以簇内样本的最远距离的最大值,...

Continue Reading »
分享到:

【Python】聚类算法中确定最佳聚类数的指标-Davies-Bouldin指数

如果数据集的标签未知,则可以使用 Davies-Bouldin指数来评估聚类的效果, 是由 David D. Bouldin 和 Donald W. 提出的一种评估聚类算法优劣的指标, 其中Davies-Bouldin指数越低,则说明聚类效果越好。 该指数表示聚类之间的平均相似度,其中相似度是将聚类之间的距离与聚类本身的大小进行比较的度量。 零是最低的分数。接近零的值表示更好的聚类。 在使用中,将Davies-Bouldin指数应用于聚类分析的结果,如下所示: from sklearn import da...

Continue Reading »
分享到: