聚类算法的性能度量

(1)在选择聚类算法之前,首先来了解什么样的聚类结果是比较好的。我们希望同一个簇内的样本尽可能相似,不同簇的样本尽可能不同,也就是说聚类结果的簇内相似度高且簇间相似度低。 DB指数(Davies-Bouldin Index,简称DBI) Dumn指数(Dumn Index,简称DI) DB指数的计算方法是任意两个簇内样本的平均距离之和除以两个簇的中心点距离,并取最大值,DBI的值越小,意味着簇内距离越小,同时簇间的距离越大;Dumn指数的计算方法是任意两个簇的最近样本间的距离除以簇内样本的最远距离的最大值,...

Continue Reading »
分享到:

【Python】聚类算法中确定最佳聚类数的指标-Davies-Bouldin指数

如果数据集的标签未知,则可以使用 Davies-Bouldin指数来评估聚类的效果, 是由 David D. Bouldin 和 Donald W. 提出的一种评估聚类算法优劣的指标, 其中Davies-Bouldin指数越低,则说明聚类效果越好。 该指数表示聚类之间的平均相似度,其中相似度是将聚类之间的距离与聚类本身的大小进行比较的度量。 零是最低的分数。接近零的值表示更好的聚类。 在使用中,将Davies-Bouldin指数应用于聚类分析的结果,如下所示: from sklearn import da...

Continue Reading »
分享到:

IC--相关论文

基本传播模型 IC LT IM算法分类 贪心算法KK(2003) CELF(2007)https://www.cnblogs.com/aaronhoo/p/6548760.html DegreeDiscount(2009) 基于度数 中心度 MaxDegree 选择图中度数最大的K个度。但会有邻居重叠 SCG 基于社区 OASNET 基于社区的动态规划。假设社区是不联系的,但真实社区联系 CGA 基于社区的贪心 网络稀疏化 混合 HPG(KK+启发) 评价指标 效率 效果 论文 Low-dimensiona...

Continue Reading »
分享到:

线性阈值模型(LT模型)算法实现(Python实现)

该算法每个节点的阈值设为 0.5 用Buv表示节点u对其邻居节点的影响力:Buv=1/Lin;Lin(v)-------点v的入度。 2、LT传播模型算法实现 linear_threshold.py (LT传播模型算法) Implement linear threshold models 社交网络影响力最大化 传播模型线性阈值(LT)模型算法实现 def linear_threshold(G, seeds, steps=0): #LT线性阈值算法 """""" Parameters ----...

Continue Reading »
分享到:

复杂网络综述

如何证明这个网络是复杂网络而不是随机网络或者规则网络呢 要证明是复杂网络:1、说明网络的平均聚类系数大于随机网络(说明不是随机网络)。2、平均路径长度小于规则网络(说明不是规则网络)。 1. 复杂网络的特点 钱学森对于复杂网络给出了一种严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称之为复杂网络。言外之意,复杂网络就是指一种呈现高度复杂性的网络,其特点主要具体体现在如下几个方面: 1.1 小世界特性 小世界特性(Small world theory)又被称之为是六度空间理论...

Continue Reading »
分享到: