【Python】使用BIRCH算法对KDDCUP99数据集的聚类结果进行可视化/计算香农熵

1. 背景:在写DoS论文时,需要计算基于BIRCH算法聚类实验生成的数据子集的香农熵。根据香农熵的差异来表示不同的数据子集和原始数据之间是存在差异的,同时原始数据集的较大的香农熵也说明该数据集具有相对复杂的数据分布规律,间接证明使用BIRCH算法对数据进行预分类的操作是有意义的。 同时需要将数据子集的数据可视化以展现聚类算法的有效性。 2. 计算香农熵:代码中的数据集是10%的KDDCUP99数据集,该数据集经过归一化和独热编码的处理,其中仅包括Normal数据和DoS数据。香农熵的计算 公式如下: 根...

Continue Reading »
分享到: