数据挖掘作业

发布时间 : 星期四 文章数据挖掘作业更新完毕开始阅读

《数据挖掘》作业

第一章 引言 一、填空题

(1)数据库中的知识挖掘(KDD)包括以下七个步骤: 数据清理 、 数据集成 、 数据选择 、 数据变换 、 数据挖掘 、 模式评估 和 知识表示

(2) 数据挖掘的性能问题主要包括: 算法的效率 、 可扩展性 和 并行处理

(3) 当前的数据挖掘研究中,最主要的三个研究方向是: 统计学 、 数据库技术 和 机器学习

(4) 在万维网(WWW)上应用的数据挖掘技术常被称为: WEB挖掘 (5) 孤立点是指: 一些与数据的一般行为或模型不一致的孤立数据

二、单选题

(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:( B )

A、所涉及的算法的复杂性; B、所涉及的数据量; C、计算结果的表现形式; D、是否使用了人工智能技术 (2)孤立点挖掘适用于下列哪种场合?( D )

A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测 (3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析

A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析 (4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能

A、选择任务相关的数据 B、选择要挖掘的知识类型 C、模式的兴趣度度量 D、模式的可视化表示 (5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析

A、关联分析 B、分类和预测 C、聚类分析 D、演变分析

(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B )

A.关联分析 B.分类和预测 C. 演变分析 D. 概念描述

(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )

A.关联分析 B.分类和预测 C.聚类分析 D. 孤立点分析 E. 演变分析

(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )

A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述

三、简答题

(1)什么是数据挖掘?

答:数据挖掘是指从大量数据中提取或“挖掘”知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?

答:典型的数据挖掘系统具有:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;数据挖掘引擎;模式评估;用户界面。

1

(3)请简述不同历史时代数据库技术的演化。 答:1960年代和以前:研究文件系统;

1970年代:出现层次数据库和网状数据库

1980年代早期:关系数据模型,关系数据库管理系统(RDBMS)的实现

1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)

1990年代:研究的重点转移到数据挖掘、数据仓库、多媒体数据库和网络数据库

2000年代:人们专注于研究数据管理和挖掘,基于各种应用的数据挖掘、XML数据库和整合的信息系统。

(4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘) 答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

(5)什么是模式兴趣度的客观度量和主观度量?

答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如: 支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。

(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的? 答:一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。

(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?

答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。

2

第二章 数据仓库和数据挖掘的OLAP技术 一、填空题

(1)数据仓库的多维数据模型可以有三种不同的形式,分别是: 星形模式 、 雪花模式 和 事实星座模式

(2)给定基本方体,方体的物化有三种选择: 不物化 、 部分物化 和 全物化 (3)著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别 的四个特征是: 面向主题 、 数据集成 、 随时间而变化 和 数据不易丢失 (4)在数据访问模式上,数据仓库以 事务操作 为主,而日常应用数据库则以 只读查询 为主。

(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是: 分布的 、 代数的 和 整体的

(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视图、数据仓库视图、商务查询视图 (7)OLAP服务器的类型主要包括:关系OLAP服务器(ROLAP) 、多维OLAP服务器(MOLAP) 和 混合OLAP服务器(HOLAP)

(8)求和函数sum()是一个 分布的 的函数。

(9)方体计算的主要挑战是 海量数据 和 有限的内存和时间 之间的矛盾。

二、单选题

(1)下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作 ( B ) A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) (2)以下哪个范围是数据仓库的数据库规模的一个合理范围( D ) A、1-100M B、100M-10G C、10-1000G D、100GB-数TB (3)存放最低层汇总的方体称为:( C ) A、顶点方体 B、方体的格 C、基本方体 D、维 (4)哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?( A ) A、上卷 B、下钻 C、切块 D、转轴 (5)平均值函数avg()属于哪种类型的度量?( B )

A、分布的 B、代数的 C、整体的 D、混合的

三、多选题

(1)OLAP系统和OLTP系统的主要区别包括( ABD )。

A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据; B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;

C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多; D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。 (2)从结构的角度看,数据仓库模型包括以下几类:( ABC )

A、企业仓库 B、数据集市 C、虚拟仓库 D、信息仓库 (3)数据仓库的三层架构主要包括以下哪三部分?( BCD )

A、数据源 B、数据仓库服务器 C、OLAP服务器 D、前端工具 (4)以下哪些是数据仓库的主要应用?( ACD )

A、信息处理 B、互联网搜索 C、分析处理 D、数据挖掘

3

四、简答题

1、为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。

答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:

(1)提高两个系统的性能

操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的 OLAP查询, 多维视图,汇总等OLAP功能提供了优化。

(2)两者有着不同的功能

操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。

(3)两者有着不同的数据

数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

2、为什么说数据仓库具有随时间而变化的特征? 答:(1)数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去 5-10 年)。

(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。 3、试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?

答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。

4、请简述几种典型的多维数据的OLAP操作 答:典型的OLAP操作包括以下几种

上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集; 下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;

切片:在给定的数据立方体的一个维上进行选择,导致一个子方; 切块:通过对两个或多个维执行选择,定义子方; 转轴:转动数据的视角,提供数据的替代表示; 钻过:执行涉及多个事实表的查询;

钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表

5、为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失? 答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。

(2)数据仓库不需要事务处理,恢复,和并发控制等机制。

4

联系合同范文客服:xxxxx#qq.com(#替换为@)