Spark大数据实例开发教程

王家林徐香玉等编著

出版社

北京：机械工业出版社

出版时间

2016

ISBN

9787111519096

标注页数

332 页

PDF页数

341 页

书籍介绍

书中第1章首先通过介绍Spark的生态系统和RDD编程模型，使读者能够快速的对Spark技术的生态环境以及对Spark的RDD编程模型有个非常直观的了解。第2章，首先介绍了Spark应用的两种部署模式；然后在应用部署模式基础上，开始Spark实战的案例与解析，通过提供一个完整的基础案例，使读者了解一个Spark应用的大致处理流程；接着对实战中的重点部分，结合源码分析、监控日志分析等深入解析了Spark运行机制、DAG图等关键内容；最后给出Spark开发者常用的应用程序构建案例与分析，以及调试环境搭建的案例与应用调试的案例。第3章重点针对Spark SQL子模块进行实战，首先概要分析了Spark 1.3版本中引入的DataFrame，然后基于DataFrame编程模型给出一个完整的基础案例与解析，接着也是针对实战中的难度、重点部分，给予了更丰富的案例与深入地分析，最后，重点关注Spark 1.3版本中DataFrame当前支持的各种数据源，并给出各种数据源基础上的案例与分析，数据源包括各种结构化数据文件、Hive表、外部数据库或现有的RDD。第4章针对流处理进行实战，首先分析流处理中的