欢迎来到广州华商学院大数据系DModel实训平台,

实验3:使用weka做FP-Growth算法挖掘

责任编辑:2222   发布时间:2022-04-21 20:33:26   

1进入Explorer

打开weka,点击Explorer进入操作界面。

img

2打开文件

进入主界面后,点击Open file,选择需要挖掘的数据,找到安装weka的路径(路径为:/opt/weka)。

img

weka的路径下面的data文件夹中有自带的数据集,选择vote.arff数据集。arff格式是weka专用的文件格式,全称Attribute-Relation File Format。它是一个ASCII文本文件,记录了一些共享属性的实例。表格里的横行称作一个实例,竖行称作一个属性,这样的一个数据集,呈现了属性之间的一种关系。vote.arff数据集可以用来基于投票模式预测所属党派。

img

3选择算法

点击Associate后点击choose选择关联规则挖掘相关算法。

img

选择FPGrowth算法。FP-growth算法比Apriori算法效率更高,在整个算法执行过程中,只需要遍历数据集2次,就能够完成频繁模式发现。其发现频繁项集的基本过程如下:(1)构建FP树;(2)从FP树中挖掘频繁项集。

img

4设置参数

点击choose旁边的部分设置参数。

img

点击之后会看到参数设置界面,参数主要是选择支持度(lowerBoundMinSupport),规则评价机制(metriType)及对应的最小值minMetric(指度量类型),设置对规则进行排序的度量依据。可以是:置信度(confidence),提升度(lift),杠杆率(leverage),确信度(conviction)。点击OK保存设置结果。

img

设置好参数后点击start运行。

img

可以看到FP-growth的运行结果:

img

该样本数据的实验结果得到41条关联规则,每条规则都带有项集出现次数、置信度、相关度等数值。如:1. [el-salvador-aid=y, Class=republican]: 157 ==> [physician-fee-freeze=y]: 156 conf:(0.99) lift:(2.44) lev:(0.21) conv:(46.56) 是一个好的关联规则,其中置信度为0.99,提升度为2.44,杠杆率为0.21,确信度为45.56。

关闭weka,结束实验


☆ 《数据仓库与数据挖掘》课程空间