大数据技术原理与应用 林子雨版 课后习题答案

发布时间 : 星期四 文章大数据技术原理与应用 林子雨版 课后习题答案更新完毕开始阅读

2. 请阐述HBase和BigTable的底层技术的对应关系 答:

项目 文件存储系统 海量数据处理 协同服务管理

3. 请阐述HBase和传统关系数据库的区别 答:

区别 数据类型 数据操作 传统关系数据库 关系模型 HBase 数据模型 BigTable GFS MapReduce Chubby HBase HDFS Hadoop MapReduce Zookeeper 插入、删除、更新、查询、插入、查询、删除、清空,多表连接 无法实现表与表之间关联 存储模式 基于行模式存储,元组或基于列存储,每个列族都行会被连续地存储在磁由几个文件保存,不同列盘也中 族的文件是分离的 数据索引 针对不同列构建复杂的只有一个行键索引 多个索引 数据维护 用最新的当前值去替换更新操作不会删除数据记录中原来的旧值 旧的版本,而是生成一个新的版本 可伸缩性 很难实现横向扩展,纵向轻易地通过在集群中增扩展的空间也比较有限 加或者减少硬件数量来实现性能的伸缩

4. HBase有哪些类型的访问接口?

答:HBase提供了Native Java API , HBase Shell , Thrift Gateway , REST GateWay , Pig , Hive 等访问接口。

5. 请以实例说明HBase数据模型。 答: Name 1 2 3 Luo Liu Xie 列限定符 列族 Info Major Email 行键

单元格 单元格有两个时间戳ts1和ts2 每个时间戳对应一个数据版本 6. 分别解释HBase中行键、列键和时间戳的概念

(1) 行键是唯一的,在一个表里只出现一次,否则就是在更新同一行,行键可以是任意的字节数组。

(2) 列族需要在创建表的时候就定义好,数量也不宜过多。列族名必须由可打印字符组成,创建表的时候不需要定义好列。

(3) 时间戳,默认由系统指定,用户也可以显示设置。使用不同的时间戳来区分不同的版本。

7. 请举个实例来阐述HBase的概念视图和物理视图的不同

HBase数据概念视图

行键 “ 时间戳 列族contents 数据物理视图

行键 “ 时间戳

行键 “ 时间戳 列族contents 列族anchor 列族anchor 在HBase的概念视图中,一个表可以视为一个稀疏、多维的映射关系。 在物理视图中,一个表会按照属于同一列族的数据保存在一起

8. 试述HBase各功能组建及其作用 (1)库函数:链接到每个客户端;

(2)一个Master主服务器:主服务器Master主要负责表和Region的管理工作; (3)许多个Region服务器:Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求

9. 请阐述HBase的数据分区机制。

答: HBase采用分区存储,一个大的表会被分拆许多个Region,这些Region会被分发到不同的服务器上实现分布式存储。

10. HBase中的分区是如何定位的。

通过构建的映射表的每个条目包含两项内容,一个是Regionde 标识符,另一个是Region服务器标识,这个条目就标识Region和Region服务器之间的对应关系,从而就可以知道某个Region被保存在哪个Region服务器中。

11. 试述HBase的三层结构中各层次的名称和作用。 层次 第一层 名称 Zookeeper文件 第二层 -ROOT-表 记录了.META.表的Region位置信息 -ROOT-表只能有一个Region。通过-ROOT-表,就可以访问.META.表中的数据 第三层 .META.表 记录了用户数据表的Region位置信息,.META.表可以有多个Region,保存了HBase中所有用户数据表的Region位置信息 作用 记录了-ROOT-表的位置信息

联系合同范文客服:xxxxx#qq.com(#替换为@)