【Python】聚类算法中确定最佳聚类数的指标-Davies-Bouldin指数

如果数据集的标签未知,则可以使用 Davies-Bouldin指数来评估聚类的效果, 是由 David D. Bouldin 和 Donald W. 提出的一种评估聚类算法优劣的指标, 其中Davies-Bouldin指数越低,则说明聚类效果越好。 该指数表示聚类之间的平均相似度,其中相似度是将聚类之间的距离与聚类本身的大小进行比较的度量。 零是最低的分数。接近零的值表示更好的聚类。 在使用中,将Davies-Bouldin指数应用于聚类分析的结果,如下所示: from sklearn import da...

Continue Reading »
分享到:

【Python】使用BIRCH算法对KDDCUP99数据集的聚类结果进行可视化/计算香农熵

1. 背景:在写DoS论文时,需要计算基于BIRCH算法聚类实验生成的数据子集的香农熵。根据香农熵的差异来表示不同的数据子集和原始数据之间是存在差异的,同时原始数据集的较大的香农熵也说明该数据集具有相对复杂的数据分布规律,间接证明使用BIRCH算法对数据进行预分类的操作是有意义的。 同时需要将数据子集的数据可视化以展现聚类算法的有效性。 2. 计算香农熵:代码中的数据集是10%的KDDCUP99数据集,该数据集经过归一化和独热编码的处理,其中仅包括Normal数据和DoS数据。香农熵的计算 公式如下: 根...

Continue Reading »
分享到:

【Python】keras提示OSError: `pydot` failed to call GraphViz.Please install GraphViz (https://www.graphviz.org/)

模型可视化过程中需要使用 from keras.utils import plot_model plot_model(model, to_file='./model.png',show_shapes=True) 安装GraphViz过程中按网上的方法不行: 安装GraphViz 添加环境变量 pip 安装pydot 尝试用conda conda forge安装GraphViz 直接输入命令: ​​​​​​​conda install GraphViz --channel conda-forge -y ​​​...

Continue Reading »
分享到: