欢迎来到广州华商学院大数据系DModel实训平台,

实验9:基于HierarchicalClusterer聚类分析的信息获取

责任编辑:管理员   发布时间:2022-04-21 20:35:17   

基于HierarchicalClusterer聚类分析的信息获取

Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。本次实验要求学生熟悉Weka平台,学习并掌握HierarchicalClusterer(层次聚类)算法,利用Weka和不同参数设置进行聚类分析,对比结果,得出结论,对问题进行总结。

1打开Weka3.8并导入数据

双击Weka图标,打开软件,在初始界面中点击“Explorer”,打开Weka自带的数据集的“iris.arff”(150条实例数据)。

img

点击“Open file”选项,查找根目录位置“/opt/weka/data”,查找到Weka目录下的“data”文件夹,找到其中的“iris.arff”文件,点击右下角的打开选项。

img

打开数据集后,界面出现该数据集的相关描述,比如:可以观察得到共有5个不同的属性,包括“sepallength”、“sepalwidth”、“petallength”、“petalwidth”和“class”,共有150条实例数据,每类数据各占多少在右下角窗口的柱状图中看到。

img

2HierarchicalClusterer算法聚类操作步骤

切换到“Cluster”,点击“Choose”按钮,选择目录下的“HierarchicalClusterer”,这是WEKA中实现层次聚类的算法。

img

点击“Choose”旁边的文本框,修改“numClusters”为3,说明我们希望把这150条实例聚成3类,即K=3,点击OK。

img

选中“Cluster Mode”的“Use training set”(使用训练集),选择“Store clusters for visualization”(存储聚类可视化),点击“Start”按钮。

img

3运行观察结果


3.1观察聚类输出结果分析

点击“Start”按钮之后,观察右边窗口“Clusterer output”给出的聚类结果。也可以在左下角“Result list”中这次产生的结果上点右键,选择“View in separate window”,然后在新窗口中浏览结果,结果中的“Cluster centroids”之后列出了各个簇中心的位置。如下图所示:

img

可以观察得到,最终聚类实例分为3类,分别为0,1,2,对应的每一类实例所占比重也在后面有标注。例如第一类共有50条数据实例,占总数据的33%。

3.2可视化聚类结果

为了观察可视化的聚类结果,我们在左下方“Result list”列出的结果上右击,点“ Visualize cluster assignments”。

img

弹出的窗口给出了 各实例的散点图。最上方的两个框是选择横坐标和纵坐标,第二行的“color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。可以在这里点“Save”把聚类结果保存成ARFF文件。

img

退出weka软件,完成实验。


☆ 《数据仓库与数据挖掘》课程空间