期末试卷资料

发布时间 : 2024/5/15 18:45:54 星期三文章期末试卷资料更新完毕开始阅读

C. 运行时环境(jobTrack和TaskTrack)

D. 运行时环境(jobTrack和ResourceManager、ApplicationMaster)

（2）判断题

MapReduce的编程模型包括Map和Reduce（对） MapReduce的数据处理引擎是Map和Reduce（错）

MapReduce的数据处理引擎是MapTask和ReduceTastk（对） P81

Yarn是新一代的集群资源管理和调度平台，它拆分了资源管理服务和作业调度服务，使得Hadoop的扩展性大大增强。使得Hadoop-2.x不仅支持原来的MapReduce计算框架，还同时支持如Storm、Spark等比较流行的计算框架。（1）选择题

Yarn是新一代的集群资源管理和调度平台，它拆分了资源管理服务和作业调度服务，使得Hadoop的扩展性大大增强，使得Hadoop-2.x能支持多个计算框架，以下哪个不属于计算框架（）

A. MapReduce B. Storm C. HBase D. Spark 以下哪个属于大数据Hadoop支持的计算框架（ BDF ）

A.HBase B.MapReduce C.Pig D. Storm E.Mathout F.Spark G.Hive

MapReduce程序。

第6章 P153

Hbase是一个高可靠、高性能、面向列、可伸缩、实时读写的分布式数据库系统。Hbase可以用HDFS作为其文件存储系统，并支持使用MapReduce分布式模型处理HBase中的海量数据，利用Zookeeper进行协同管理数据。 (1)填空题

Hbase是一个高可靠、高性能、面向列、可伸缩、实时读写的分布式数据库系统。Hbase可以用HDFS作为其文件存储系统，并支持使用MapReduce分布式模型处理HBase中的海量数据，利用Zookeeper进行协同管理数据。（2）判断题

Hbase是面向行的分布式数据库系统（错） P154

HBase中的表是由行键、时间戳、列族、行组成。（1）行（row）

由一个行键和一个或多个具有关联值的列组成。（2）行键(row key)

行键是用来检索的主键，每一行只能有一个行键。HBase的表只能用行键作索引。（3）列族（column family）

某些列构成的集合，列族在使用前必须事先定义，列族不能随意修改和删除，必须使所属表离线才能进行相应的操作。

HBase是以列族作为一个存储单元，每个列族都会单独存储，HBase面向列的数据库就是由此而来。

（4）列（column）

列并不是真实存在的，而是由列族名、冒号、限定符组合成的虚拟列。列在使用时不需要预先定义，在插入数据时直接指定修饰符即可。（5）表格单元（cell）

cell是由行键、列限定的唯一表格单元，包含一个值和能反映该值版本的时间戳，cell是HBase中最小的操作单元（6）时间戳(timestamp)

时间戳是为数据添加的时间标记，每一个由行键和列限定的数据在添加时都会指定一个时间戳。时间戳主要是为标记同一数据的不同版本，各版本数据在存储时根据时间戳的倒序排列，也就是检索时，最近的先被找到。（1）选择题

给出一个HBase的物理视图，如下所示

行键 \时间戳 T5 列族 contents:html=\其中所谓的列指的是（ D ）

A. contents:html=\其中表格单元作为HBase的最小存储单元，存放的是（ C ）

A. \和\和contents:html 其中表格单元作为HBase的最小存储单元，是由（ B ）来唯一限定的。 A. \和T5 B. \和 contents:html C. T5和contents:html D. T5和html P172

ddl dml操作。大题。

第8章 P193

Hive是一种数据仓库技术，用于查询和管理存储在分布式环境下的大数据集，由Facebook公司研发并进行开源。 (1)填空题

Hive是一种数据仓库技术，用于查询和管理存储在分布式环境下的大数据集，由Facebook公司研发并进行开源。

Hive完美集成了SQL技术，提供类SQL的查询语言，称为HQL(Hive Query Language)，用于查询存储在Hadoop集群中的数据。（1）判断题

Hive能够直接使用SQL技术查询存储在Hadoop集群中的数据。（错）

Hive是基于Hadoop分布式批量处理系统的数据仓库技术，任务提交过程具有高延迟性，适合处理相对静态的海量数据集。处理数据的场景：要求处理过程数据不会发生快速变化且对处理结果的实时相应要求不高。

（1）判断题

Hive是基于Hadoop分布式批量处理系统的数据仓库技术，任务提交过程具有实时性（高延迟性），适合处理相对静态的海量数据集。(错)（对）

Hive的主要优势是结合了SQL技术和MapReduce分布式计算框架的优点，降低了传统数据分析人员使用Hadoop大数据平台的障碍。

Hive的存储是建立在Hadoop之上的，数据能以任意的形式存储在HDFS上，或者以特定分类形式存储在HBase中。

Hive组成部分分为Hive客户端和Hive服务器端。客户端提供Thrift、JDBC、ODBC应用程序驱动工具，驱动Python、java、C++程序使用Hive对存储在Hadoop上的海量数据进行分析；服务器端提供Hive Shell命令行接口、Hive Web接口和为不同应用程序提供多种服务（包括提供Thrift、JDBC、ODBC驱动）的Hive Server，实现上述Hive服务操作与存储在Hadoop上的数据之间的交互。 (1)填空题

Hive组成部分分为Hive客户端和Hive服务器端，其中服务器端提供Hive Shell命令行接口、Hive Web接口和为不同应用程序提供多种服务（包括提供Thrift、JDBC、ODBC驱动）的Hive Server。

P194

Metastore元数据：Hive采用HQL语言操作Hadoop环境上的数据，需要在Hive与Hadoop之间提供一层抽象接口，实现Hive与Hadoop之间不同数据格式的转换。接口属性包括表名、列名、表分区名以及数据在HDFS上的存储位置；接口属性内容又称为Hive表元数据，以metastore内容的形式存储在数据库中，用来限定Hive如何进行格式化操作从Hadoop中获取任何非结构化数据。 P195

metastore内容所需要的存储容量需求较小，甚至可能需要经历频繁地更新、修改和读取操作，不适合用Hadoop文件系统存储。Hive将metastore内容存储在关系型数据库，如mysql。访问关系型数据库中的metastore内容，可以分为三个模式：

（1）单用户本地模式：该模式使用简单的基于内存的数据库Derby

（2）多用户本地模式：该模式使用本地更复杂、功能更完善的独立数据库，如MySQL （3）远程服务器模式：该模式使用单独机器部署功能强大的数据库。

（1）简答题

使用Hive和Hadoop进行海量数据处理，需要在mysql创建一个数据库用于Hive和Hadoop之间数据处理的元数据，为什么需要这个过程?

（1）Hive采用HQL语言操作Hadoop环境上的数据，需要在Hive与Hadoop之间提供一层抽象接口，实现Hive与Hadoop之间不同数据格式的转换。

（2）接口属性包括表名、列名、表分区名以及数据在HDFS上的存储位置；

（3）接口属性的内容以metastore内容的形式存储在数据库中，也成为Hive元数据；（4）metastore内容所需要的存储容量需求较小，甚至可能需要经历频繁地更新、修改和

读取操作，不适合用Hadoop文件系统存储。

（5）所以，将metastore内容存储在关系型数据库中是个比较合适的选择，如MySql。

Hive Shell的操作，大题

第9章 P219

Pig是一个针对大数据集进行分析的平台，拥有完整的数据操作规范--Pig语言，也成为是Pig Latin。Pig最初是由Yahoo!研发用于对大数据进行分析。 P220 Pig Latin的大小写规则比较复杂，如关系表达式名和字段名区分大小写，函数名区分大小写，Pig Latin关键字不区分大小写，grunt shell相关命令不区分大小写（1）选择题

以下对Pig Latin的大小写规则描述错误的是（？？？） P220

一个关系（relation）就是一个外部包

一个包(bag)是由一系列的元组(tuple)的集合。一个元组是一系列有序字段(field)的集合。（1）判断题

在Pig中，一个包(bag)是一系列有序字段(field)的集合（错） P223

MapReduce程序题。（红色部分未待选的填空位置） public class WordCount { public static class Map extends Mapper{ private Text word = new Text(); public void map(Object key, Text value, Context context )throws IOException, InterruptedException { StringTokenizeritr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, new IntWritable(1)); } }

期末试卷资料

下载：期末试卷资料.doc

最近浏览

最新搜索

站内搜索