广州华商学院大数据系DModel实训平台

当前位置：首页 > 课程空间 > 《数据仓库与数据挖掘》课程空间 > 实验6：基于SimpleKMeans聚类分析的信息获取

实验6：基于SimpleKMeans聚类分析的信息获取

责任编辑：发布时间：2022-04-21 20:34:44

基于SimpleKMeans聚类分析的信息获取

熟悉Weka平台，Weka作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。学习掌握k-means算法，利用Weka和不同参数设置进行聚类分析，对比结果，得出结论，对问题进行总结。

1打开Weka3.8并导入数据

双击Weka图标，打开软件，在初始界面中点击“Explorer”，并打开Weka自带的数据集“diabetes.arff”（768条实例数据）。

点击“Open file”选项，查找到Weka目录下的“data”文件夹，找到其中的“diabetes.arff”文件，点击右下角的打开选项。

打开数据集后，界面出现该数据集的相关描述，比如：可以观察得到共有9个不同的属性，包括“preg”、“plas”、“skin”、“insu”、“mass”、“pedi”、“age”和“class”，共有768条实例数据，每类数据各占多少在右下角窗口的柱状图中看到。

2SimpleKMeans算法聚类

（请确保你已经安装上一步骤打开目标文件，否则请先按步骤打开目标文件）切换到“Cluster”，点击“Choose”按钮，选择目录下的“SimpleKMeans”，这是WEKA中实现的K均值聚类的算法。

点击“Choose”旁边的文本框，修改“numClusters”为6，说明我们希望把这768条实例聚成6类，即K=6；下面的“seed”参数是要设置一个随机种子，依此产生一个随机数，用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10，点击OK。

选中“Cluster Mode”的“Use training set”（使用训练集），选择“Store clusters for visualization”（存储聚类可视化），点击“Start”按钮。

3运行观察结果

3.1观察聚类输出结果

点击“Start”按钮之后，观察右边窗口“Clusterer output”给出的聚类结果。也可以在左下角“Result list”中这次产生的结果上点右键，选择“View in separate window”，然后在新窗口中浏览结果，结果中的“Cluster centroids”之后列出了各个簇中心的位置。可以观察得到，最终聚类实例分为6类，分别为0，1，2，3，4，5，对应的每一类实例所占比重也在后面有标注。例如第一类共有63条数据实例，占总数据的8%。如下图所示：

对于数值型的属性，簇中心就是它的均值（Mean）；对于分类型的属性，簇中心就是它的众数（Mode），也就是说这个属性上取值为众数值的实例最多；对于数值型的属性，还给出了该属性在各个簇中的标准差（Std Devs）。比如第一行数据为“preg”的属性，后面的几列数据分别代表其在所有数据和6个簇中的簇中心数值，下面的几行则是其他属性对应的簇中心数值。如下图所示：