大数据技术原理及应用林子雨版课后习题答案解析 - 图文

发布时间 : 2024/4/30 15:27:18 星期二文章大数据技术原理及应用林子雨版课后习题答案解析 - 图文更新完毕开始阅读

***

专业资料整理分享

Common Avro

Commeo是n 为 Hadoop其他子项目提供支持的常用工具，主要包括文件系统、和串行化库

RPC

Avro 是为 Hadoop的子项目，用于数据序列化的系统，提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。

HDFS是 Hadoop项目的两个核心之一，它是针对谷歌文件系统的开源实现。

HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库，一般采用 HDFS作为其底层数据存储。

MapReduce是针对谷歌 MapReduce的开源实现，用于大规模数据集的并行运算。

Zoookepper 是针对谷歌 Chubby的一个开源实现，是高效和可靠的协同工作系统，提供分布式锁之类的基本服务，用于构建分布式应用，减轻分布式应用程序所承担的协调任务。

Hive 是一个基于 Hadoop的数据仓库工具，可以用于对 Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。

Pig 是一种数据流语言和运行环境，适合于使用 Hadoop和 MapReducce平台上查询大型半结构化数据集。

Sqoop可以改进数据的互操作性，主要用来在 H大哦哦哦配合关系数据库之间交

完美 WORD格式编辑

***

专业资料整理分享

换数据。

Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合 Hadoop处理的文件，并保存在 HDFS中供 Hadoop进行各种 MapReduce操作。

第三章

1．试述分布式文件系统设计的需求。设计需求透明性

含义

具备访问透明性、位置透明性、性能、和伸缩透明性

HDFS的实现情况只能提供一定程度的访问透明性，完全支持位置透明性、性能和伸缩透明性

并发控制

客户端对于文件的读写不应该影响其他客户端对同一个文件的读写

文件复制

一个文件可以拥有不同

HDFS采用了多副本机制

位置的多个副本

硬件和操作系统的异构性

可以在不同的操作系统

采用 Java 语言开发，具

和计算机上实现同样的客户端和服务端程序

可伸缩性

支持节点的动态加入或退出

建立在大规模廉价机器

上的分布式文件系统集群，具有很好的伸缩性

完美 WORD格式编辑

***

机制非常简单，任何时候都只允许有一个程序写入某个文件

有很好的跨平台能力

***

专业资料整理分享

容错保证文件服务在客户端或者服务端出现问题的时候能正常使用

具有多副本机制和故障自动检测、恢复机制

安全保证系统的安全性安全性较弱

2．分布式文件系统是如何实现较高水平扩展的？

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，

这些节点分

为两类，一类叫“主节点”(Master Node)或者也被称为 “名称结点”(NameNode)，另一类叫“从节点”（ Slave Node ）或者也被称为“数据节点” (DataNode)

3．试述 HDFS中的块和普通文件系统中的块的区别。

答：在传统的文件系统中，为了提高磁盘读写效率，一般以数据块为单位，恶如不是以字节为单位。

HDFS中的块，默认一个块大小为 64MB，而HDFS中的文件会被拆分成多个块，每个块作为独立的单元进行存储。 HDFS在块的大小的设计上明显要大于普通文件系统。

4．试述 HDFS中的名称节点和数据节点的具体功能。答：名称节点负责管理分布式文件系统系统的命名空间，的每个文件中各个块所在的数据节点的位置信息；

数据节点是分布式文件系统 HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，发送自己所存储的块的列表。

并向名称节点定期记录分布式文件系统中

hadoop fs -ls 显示指定的文件的详细信息

完美 WORD格式编辑

***

专业资料整理分享

hadoop fs -cat

将指定的文件的内容输出到标准输出

hadoop fs -mkdir 创建指定的文件夹

hadoop fs -get [-ignorecrc] [-crc]

到本地文件系统指定的文件或文件夹。 -ignorecrc 验失败的文件。使用 -crc 选项复制文件以及 CRC信息。

复制指定的文件选项复制 CRC校

hadoop fs -put 从本地文件系统中复制指定的单

个或多个源文件到指定的目标文件系统中。也支持从标准输入 (stdin) 中读取输入写入目标文件系统。

hadoop fs -rmr 删除指定的文件夹及其的所有文件

第四章

17. 试述在 Hadoop体系架构中 HBase与其他组成部分的相互关系。

答： HBase利用 Hadoop MapReduce来处理 HBase中的海量数据，实现高性能计算；利用 Zookeeper 作为协同服务，实现稳定服务和失败恢复；使用高可靠的底层存储，利用廉价集群提供海量数据存储能力

HDFS作为

; Sqoop为HBase的底

层数据导入功能，Pig 和 Hive 为 HBase提供了高层语言支持， HBase是 BigTable 的开源实现。

完美 WORD格式编辑

***

大数据技术原理及应用林子雨版课后习题答案解析 - 图文

下载：大数据技术原理及应用林子雨版课后习题答案解析 - 图文.doc

最近浏览

最新搜索

站内搜索