数据挖掘实验二报告

发布时间 : 2024/6/23 9:37:41 星期日文章数据挖掘实验二报告更新完毕开始阅读

实验二：利用Weka进行常见的数据处理

实验内容：

1.学习Weka的标准数据格式arff

2. 掌握分析数据：箱式图、正态分析、图形显示

3.掌握归一化、特征提取、缺失值、噪声值处理等数据处理方法

实验步骤

在给定的2个数据集上（iris和wine）进行操作。

1. 掌握Weka的标准数据格式arff(attribute-relation file format)，并将指定数据集数据转换成arff格式。

由于weka软件可以打开CSV文件，故将数据集在EXCEL中保存为CSV文件，再用weka打开后，再保存为arff格式。

arff格式文件主要由两个部分构成，头部定义（关系名称（relation name）、一些属性（attributes）和对应的类型）和数据区。

2. 利用Weka对数据集数据进行图形分析（提示:根据Weka已有的图形选项，无特定功能则可省略过程，了解其含义即可）

3. 归一化处理。根据学过的归一化知识对数值属性进行归一化处理（可不用Weka）。

若使用weka进行归一化处理，可在Filters中选择unsupervised -> attribute下面的Normalize，使用默认参数，点击ok，回到主窗口。选好将要归一化的特征，可以是一个或多个，然后点击apply。

线性函数转换：y=(x-MinValue)/(MaxValue-MinValue)

注：x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值。

4. 特征提取。理解特征提取概念，利用Weka在指定数据集上进行特征提取。要求：采用不同的Attribute Evaluator，并比较实验结果。特征提取是通过映射的方法，将高维的属性空间压缩为低维的属性空间，得到最小的属性集，使得数据类的概念分布尽可能地接近使用所有属性的原分布。对于iris数据集：采用ranker;

5. 缺失值，噪声值处理。了解数据的不完整性。针对给定的数据集，利用不同的方法，添加缺失值或噪声值。要求：重点掌握Filter过滤器的快速处理。处理空缺值的方法：忽略该记录；去掉属性；手工填写空缺值；使用默认值；使用属性平均值；使用同类样本平均值；预测最可能的值。

噪声数据的处理方法：分箱；聚类；计算机和人工检查结合；回归

数据挖掘实验二报告

下载：数据挖掘实验二报告.doc

最近浏览

最新搜索

站内搜索