林子雨大数据技术原理与应用第八章课后题答案

发布时间 : 星期六 文章林子雨大数据技术原理与应用第八章课后题答案更新完毕开始阅读

大数据第八章课后题答案

——流数据

黎狸

1. 试述流数据的概念。

数据密集型应用——流数据, 即数据以大量、快速、时变的流形式持续到达。以传感监测为例,在大气中放置PM2.5传感器实时监测大气中的PM2.5的浓度,监测数据会源源不断地实时传输回数据中心,监测系统对回传数据进行实时分析,预判空气质量变化趋势,如果空气质量在未来一段时间内会达到影响人体健康的程度,就启动应急响应机制。 2. 试述流数据的特点。

① 数据快速持续到达,潜在大小也许是无穷无尽的。 ② 数据来源众多,格式复杂。

③ 数据量大,但是不十分关注存储,一旦流数据中的某个元素经过处理,

要么被丢弃,要么被归档存储。

④ 注重数据的整体价值,不过分关注个别数据。

⑤ 数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元

素的顺序。

3. 在流计算的理念中,数据的价值与时间具备怎样的关系?

数据的价值随着时间的流逝而降低。 4. 试述流计算的需求。

① 高性能。 处理大数据的基本要求, 如每秒处理几十万 条数据。 ② 海量式。支持TB级甚至是PB级的数据规模。

③ 实时性。必须保证-一个较低的延迟时间,达到秒级别,甚至是毫秒级别。

④ 分布式。支持大数据的基本架构,必须能够平滑扩展。 ⑤ 易用性。能够快速进行开发和部署。 ⑥ 可靠性。能可靠地处理流数据。

5. 试述MapReduce框架为何不适合用于处理流数据。

(1) Hadoop设计的初衷是面向大规模数据的批量处理。批量任务的处理

方式,在时间延迟方面无法满足流计算的实时响应需求。

(2) 将MapReduce的批量处理转为小批量处理,将输入数据切成小的

片段,每隔一个周期启动一次MapReduce作业。此方法存在如下问题:

① 切分成小的片段,虽然可以降低延迟,但是,也增加了任务处理的附加开销,

而且还要处理片段之间的依赖关系,因为一个片段可能需要用到前一个片段的计算结果。

② 需要对MapReduce进行改造以支持流式处理,Reduce阶段的结果不

能直接输出,而是保存在内存中;这种做法会大大增加MapReduce框架的复杂度,导致系统难以维护和扩展;

③ 降低了用户程序的可伸缩性,因为,用户必须要使用MapReduce接口

来定义流式作业。

6. 将基于MapReduce的批量处理转为小批量处理,每隔一个周期就启动一

次MapReduce作业,通过这样的方式来处理流数据是否可行?为什么?

不可行。

切分成小的片段,虽然可以降低延迟,但是,也增加了任务处理的附加开销,而且还要处理片段之间的依赖关系;Reduce阶段的结果不能直接输出;

降低了用户程序的可伸缩性。 7. 列举几个常见的流计算框架。

目前有三类常见的流计算框架和平台:商业级的流计算平台、开源流计算框架、公司为支持自身业务开发的流计算框架。

(1)商业级:IBM InfoSphere Streams和IBM StreamBase (2)较为常见的是开源流计算框架,代表如下:

Twitter Storm:免费、开源的分布式实时计算系统,可简单、高效、可靠地处理大量的流数据

Yahoo! S4(Simple Scalable Streaming System):开源流计算平台,是通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统

(3)公司为支持自身业务开发的流计算框架: Facebook Puma Dstream(百度)

银河流数据处理平台(淘宝)

8. 试述流计算的一般处理流程。

流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算、实时查询服务。

流计算处理流程示意图

数据实时采集 数据实时计算 用户查询 查询结果 实时查询服务

9. 试述流计算流程与传统的数据处理流程之间的主要区别。

传统数据处理的数据是旧的;查询传统数据处理的数据需要主动发出请求。

10. 试述数据实时采集系统的一般组成部分。

① Agent: 主动采集数据,并把数据推送到Collctor 部分。

② Collector: 接收多个Agent的数据,并实现有序、可靠、高性能的转发。 ③ Store: 存储Collector转发过来的数据。

11. 试述流计算系统与传统的数据处理系统对所采集数据的处理方式有什么不

同。

流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据;

用户通过流处理计算系统获取的是实时结果,而传统的数据处理系统获取的是过去某一时刻的结果。 12. 试列举几个流计算的应用领域。

① 实时分析。购物网站,社交网站的推荐基于对用户行为的分析来实现。 ② 实时交通。通过结合来自不同源的实时数据,生成动态的、多方位的观

察交通流量的方式,为城市规划者和乘客提供实时交通状况查询。

13. 流计算适用于具备怎样特点的场景?

适合于具备需要处理持续到达的流数据、对数据处理有较高实时性要求的场景。

14. 试述流计算为业务分析带来了怎样的改变。

能在秒级别内得到实时的分析结果,有利于根据当前得到的分析结果及

联系合同范文客服:xxxxx#qq.com(#替换为@)