给网友朋友们带来一篇大数据分析相关的资料,介绍了关于数据挖掘、数据仓库、HAWQ方面,格式为PDF,资源大小139 MB,目前在大数据分析类资源综合评分为:9.8分。
内容介绍 Apache HAWQ是一个SQL-on-Hadoop产品,它非常适合用于Hadoop平台上快速构建数据仓库系统。HAWQ具有大规模并行处理、完善的SQL兼容性、支持存储过程和事务、出色的性能表现等特性,还可与开源数据挖掘库MADlib轻松整合,从而使用SQL就能进行数据挖掘与机器学习。 《HAWQ数据仓库与数据挖掘实战》内容分技术解析、实战演练与数据挖掘三个部分共27章。技术解析部分说明HAWQ的基础架构与功能特性,包括安装、连接、对象与资源管理、查询优化、备份恢复、高可用性等。实战演练部分用一个完整的示例,说明如何使用HAWQ取代传统数据仓库,包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与MADlib整合,实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法。 《HAWQ数据仓库与数据挖掘实战》适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。 目录 第一部分HAWQ技术解析 第1章HAWQ概述3 第2章HAWQ安装部署19 第3章连接管理41 第4章数据库对象管理57 第5章分区表79 第6章存储管理99 第7章资源管理118 第8章数据管理138 第9章过程语言195 第10章查询优化215 第11章高可用性239 第二部分HAWQ实战演练 第12章建立数据仓库示例模型265 第13章初始ETL285 第14章定期ETL294 第15章自动调度执行ETL作业318 第16章维度表技术333 第17章事实表技术387 第18章联机分析处理423 第三部分HAWQ数据挖掘 第19章整合HAWQ与MADlib451 第20章奇异值分解485 第21章主成分分析502 第22章关联规则方法514 第23章聚类方法525 第24章回归方法538 第25章分类方法547 第26章图算法562 第27章模型验证570
评论区