大数据技术原理与应用林子雨课后习题答案

发布时间 : 星期日 文章大数据技术原理与应用林子雨课后习题答案更新完毕开始阅读

位置的多个副本 硬件和操作系统的异构可以在不同的操作系统采用Java语言开发,具性 和计算机上实现同样的有很好的跨平台能力 客户端和服务端程序 可伸缩性 支持节点的动态加入或建立在大规模廉价机器退出 上的分布式文件系统集群,具有很好的伸缩性 容错 保证文件服务在客户端具有多副本机制和故障或者服务端出现问题的自动检测、恢复机制 时候能正常使用 安全 保证系统的安全性 安全性较弱 2.分布式文件系统是如何实现较高水平扩展的? 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode) 3.试述HDFS中的块和普通文件系统中的块的区别。

答:在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位,恶如不是以字节为单位。

HDFS中的块,默认一个块大小为64MB,而HDFS中的文件会被拆分成多个块,每个块作为独立的单元进行存储。HDFS在块的大小的设计上明显要大于普通文件系统。 4.试述HDFS中的名称节点和数据节点的具体功能。

答:名称节点负责管理分布式文件系统系统的命名空间,记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息;

数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。

hadoop fs -ls 显示指定的文件的详细信息

hadoop fs -cat 指定的文件的内容输出到标准输出 hadoop fs -mkdir 创建指定的文件夹

hadoop fs -get [-ignorecrc] [-crc] 复制指定的文件到本地文件系统指定的文件或文件夹。-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。

hadoop fs -put 从本地文件系统中复制指定的单个或多个源文件到指定的目标文件系统中。也支持从标准输入(stdin)中读取输入写入目标文件系统。

hadoop fs -rmr 删除指定的文件夹及其的所有文件

第四章

1. 试述在Hadoop体系架构中HBase与其他组成部分的相互关系。

答: HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算;利用Zookeeper作为协同服务,实现稳定服务和失败恢复;使用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力; Sqoop为HBase的底层数据导入功能,Pig和Hive为HBase提供了高层语言支持,HBase是BigTable的开源实现。 2. 请阐述HBase和BigTable的底层技术的对应关系 答:

项目 文件存储系统 海量数据处理 协同服务管理 BigTable GFS MapReduce Chubby HBase HDFS Hadoop MapReduce Zookeeper 3. 请阐述HBase和传统关系数据库的区别 答:

区别 数据类型 数据操作 传统关系数据库 关系模型 HBase 数据模型 插入、删除、更新、查询、插入、查询、删除、清空,多表连接 无法实现表与表之间关联 存储模式 基于行模式存储,元组或基于列存储,每个列族都行会被连续地存储在磁由几个文件保存,不同列盘也中 族的文件是分离的 数据索引 针对不同列构建复杂的只有一个行键索引 多个索引 数据维护 用最新的当前值去替换更新操作不会删除数据记录中原来的旧值 旧的版本,而是生成一个新的版本 可伸缩性 很难实现横向扩展,纵向轻易地通过在集群中增扩展的空间也比较有限 加或者减少硬件数量来实现性能的伸缩 4. HBase有哪些类型的访问接口?

答:HBase提供了Native Java API , HBase Shell , Thrift Gateway , REST GateWay , Pig , Hive 等访问接口。

5. 请以实例说明HBase数据模型。

答: 列族 列限定Info Name Major Math Math Math Email Luo@qq.com liu@qq.com xie@qq.com you@163.com 201505001 201505002 201505003 Luo Min Liu Jun Xie You 行键 单元格 单元格有两个时间戳ts1和ts2 6. 分别解释HBase中行键、列键和时间戳的概念 (1) 行键是唯一的,在一个表里只出现一次,否则就是在更新同一行,行键可以是任意的字节数组。

(2) 列族需要在创建表的时候就定义好,数量也不宜过多。列族名必须由可打印字符组成,创建表的时候不需要定义好列。

(3) 时间戳,默认由系统指定,用户也可以显示设置。使用不同的时间戳来区分不同的版本。 7. 请举个实例来阐述HBase的概念视图和物理视图的不同

HBase数据概念视图

行键 时间戳 列族contents 列族anchor

联系合同范文客服:xxxxx#qq.com(#替换为@)