聚类算法的性能度量

盼盼    2020-06-23 21:44

(1)在选择聚类算法之前,首先来了解什么样的聚类结果是比较好的。我们希望同一个簇内的样本尽可能相似,不同簇的样本尽可能不同,也就是说聚类结果的“簇内相似度”高且“簇间相似度”低。
DB指数(Davies-Bouldin Index,简称DBI)
Dumn指数(Dumn Index,简称DI)
DB指数的计算方法是任意两个簇内样本的平均距离之和除以两个簇的中心点距离,并取最大值,DBI的值越小,意味着簇内距离越小,同时簇间的距离越大;Dumn指数的计算方法是任意两个簇的最近样本间的距离除以簇内样本的最远距离的最大值,并取最小值,DI的值越大,意味着簇间距离大而簇内距离小。因此,DBI的值越小,同时DI的值越大,意味着聚类的效果越好。
(2)为了评价聚类的质量,定义一种用于衡量聚类效果的指标SSE(Sum of Squared Error,误差平方和),误差是指样本到其质心的距离。SSE值越小,表示数据点越接近质心。
由于K-均值算法是随机选取质心,因此可能会收敛到局部最小值,而非全局最小值。为了克服这个问题,提出了一种二分K-均值算法(注意:该算法需要确定簇的个数,而我的需求中分类的个数是未知的。因此,希望通过观察性能度量指标DI和DBI的变化趋势来确定一个合适k值。)。该算法的思路是将所有点作为一个簇,然后将该簇一分为二。之后选择一个能最大程度降低SSE值的簇继续进行划分,直到得到用户指定的簇数目为止。


 
Last Modified: 2020-06-23 21:44
Views: 2.1K

[[total]] comments

Post your comment
  1. [[item.time]]
    [[item.user.username]] [[item.floor]]Floor
  2. Click to load more...
  3. Post your comment