习题及参考答案 联系客服

发布时间 : 星期三 文章习题及参考答案更新完毕开始阅读

习题参考答案

第1章绪论

1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。

答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以

来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,

可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。

实际生活的例子:

①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。

②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。

③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。

1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖

掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?

答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商

务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。

但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。

1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程

数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们的GPA。描述你要选取的结构,该结构的每个成分的作用是什么? 答:任务目的是分析课程数据库,那么首先需要有包含信息的关系型数据库系统,以便查找、

提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、

关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用可视化软件进行显示。

1.4 假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明,数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测

等技术为企业服务。 答:

(1) 使用聚类发现互联网中的不同群体,用于网络社区发现;

第 1 页 共 27 页

(2) 使用分类对客户进行等级划分,从而实施不同的服务;

(3) 使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广

外”的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜索“信息学院”。

(4) 使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息

的攻击。

1.5 定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生

活中的数据,给出每种数据挖掘功能的例子。

答:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”)?owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为12%,同时,主修计算机专业的学生有98%拥有个人计算机。

分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到一个预测模型,预测新客户是否可能会流失。

聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为低值客户、高值客户以及普通客户等。

数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 。 离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。

1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但本章未列出。

它需要一种不同于本章列举的数据挖掘技术吗? 答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列

中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技术解决这类问题。

1.7 讨论下列每项活动是否是数据挖掘任务:

(1)根据性别划分公司的顾客。

(2)根据可赢利性划分公司的顾客。 (3)计算公司的总销售额。

(4)按学生的标识号对学生数据库排序。 (5)预测掷一对骰子的结果。

(6)使用历史记录预测某公司未来的股票价格。 (7)监视病人心率的异常变化。 (8)监视地震活动的地震波。 (9)提取声波的频率。

答: (1) 不是,这属于简单的数据库查询。

(2) 不是,这个简单的会计计算;但是新客户的利润预测则属于数据挖掘任务。 (3) 不是,还是简单的会计计算。

第 2 页 共 27 页

(4) 不是,这是简单的数据库查询。

(5) 不是,由于每一面都是同等概率,则属于概率计算;如概率是不同等的,根据历

史数据预测结果则更类似于数据挖掘任务。

(6) 是,需要建立模型来预测股票价格,属于数据挖掘领域中的预测模型。可以使用

回归来建模,或使用时间序列分析。 (7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域

的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。 (8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据挖

掘领域的分类。 (9) 不是,属于信号处理。

第2章数据处理基础

2.1 将下列属性分类成二元的、分类的或连续的,并将它们分类成定性的(标称的或序数的)

或定量的(区间的或比率的)。

例子:年龄。回答:分类的、定量的、比率的。 (a)用AM和PM表示的时间。 (b)根据曝光表测出的亮度。 (c)根据人的判断测出的亮度。 (d)医院中的病人数。 (e)书的ISBN号。

(f)用每立方厘米表示的物质密度。 答:(a)二元,定量,比率;

(b)连续,定量 ,比率; (c)分类,定性,标称; (d)连续,定量,比率; (e)分类,定性,标称; (f)连续,定量,比率。

2.2 你能想象一种情况,标识号对于预测是有用的吗? 答:学生的ID号可以预测该学生的毕业日期。

2.3 在现实世界的数据中,元组在某些属性上缺失值是常有的。请描述处理该问题的各种方法。

答:处理遗漏值问题的策略有如下几种。

(1) 删除数据对象或属性。一种简单而有效的策略是删除具有遗漏值的数据对象。然而,

即使部分给定的数据对象也包含一些信息,并且,如果许多对象都有遗漏值,则很难甚至不可能进行可靠的分析。尽管如此,如果一个数据集只有少量的对象具有遗漏值,则忽略他们可能是合算的。一种相关的策略是删除具有遗漏值的属性。然而,做这件事要小心,因为被删除的属性可能对分析是至关重要的。

(2) 估计遗漏值。有时,遗漏值可以可靠地估计。例如,在考虑以较平滑的方式变化的

具有少量但大大分散的遗漏值的时间序列,遗漏值可以使用其他值来估计(插值)。作为另一个例子,考虑一个具有许多相似数据点的数据集。在这种情况下,与具有遗漏值的点邻近的点的属性值常常可以用来估计遗漏的值。如果属性是连续的,则可以使用最近邻的平均属性值;如果属性是分类的,则可以取最近邻中最常出现的

第 3 页 共 27 页

属性值。

(3) 在分析时忽略遗漏值。许多数据挖掘方法都可以修改,忽略遗漏值。例如。假定正

在对数据对象聚类,需要计算数据对象间的相似性;如果对于某属性,两个对象之一或两个对象都有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。当然,这种相似性只是紧邻的,但是除非整个属性数目很少,或者遗漏值的数量很大,否

则这种误差影响不大。同样的,许多分类方法都可以修改,处理遗漏值。

2.4 以下规范方法的值域是什么?

(a) min-max规范化。

(b) z-score 规范化。 (c) 小数定标规范化。 答:(a)[new_min,new_max];

(b)(-∞,+ ∞); (c)(-1.0,1.0)。

2.5 假定用于分析的数据包含属性age,数据元组中age 的值如下(按递增序):

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度为3。解释你的步骤。评论对

于给定的数据,该技术的效果。 (b) 对于数据平滑,还有哪些其它方法? 答:(a)已知数据元组中age 的值如下(按递增序):

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70, 且箱的深度为3,划分为(等频)箱: 箱1:13,15,16 箱2:16,19,20 箱3:20,21,22 箱4:22,25,25 箱5:25,25,30 箱6:33,33,33 箱7:35,35,35 箱8:35,36,40 箱9:45,46,52 箱10:70

用箱均值光滑: 箱1:15,15,15 箱2:18,18,18 箱3:21,21,21 箱4:24,24,24 箱5:27,27,37 箱6:33,33,33 箱7:35,35,35 箱8:37,37,37 箱9:48,48,48 箱10:70;

第 4 页 共 27 页