适合入门,了解整个大数据技术体系,介绍得比较全面,易懂 体系比较完善,没有太多废话,不是堆代码,适合大数据从业人员中级以下水平的读物 对了解大数据的总体架构和主要组建有帮助 内容介绍 本书从大数据落地应用的角度,系统阐述了从数据采集到数据存储的大数据、分布式协调和资源管理、计算引擎、分析工具,再到数据可视化的完整过程,这本书不仅包含了主要技术的实现原理和框架,还有具体的落地指导是帮助企业和个人整体理解大数据框架的难得参考书。本章主要包括6部分16章,其中:第一部分介绍了大数据架构谷歌和Hadoop技术栈;第二部分介绍了大数据分析的相关技术,主要涉及关系数据收集工具Sqoop和Canel、非关系数据收集系统Flume和分布式消息队列Kafka;第三部分介绍了大数据存储的相关技术,涉及数据存储格式、分布式文件系统和分布式数据库;第四部分介绍了资源管理和服务协调的相关技术,涉及资源管理和调度系统纱和资源协调系统ZooKeeper;第五部分介绍了计算引擎的相关技术,涉及到批处理、交互式处理和流式实时处理引擎;第六部分是数据分析技术,基于数据分析语言HQL和SQL、大数据统一编程模型和机器学习库等。 目录 第一部分 概述篇 第1章 企业级大数据技术体系概述 2 第二部分 数据收集篇 第2章 关系型数据的收集 20 第3章 非关系型数据的收集 36 第4章 分布式消息队列Kafka 51 第三部分 数据存储篇 第5章 数据序列化与文件存储格式 70 第6章 分布式文件系统 90 第7章 分布式结构化存储系统 104 第四部分 分布式协调与资源管理篇 第8章 分布式协调服务ZooKeeper 130 第9章 资源管理与调度系统YARN 146
评论区