第1章 Spark简介与运行原理 1
1.1 Spark是什么 1
1.2 Spark的生态系统 3
1.3 Spark的架构与原理 4
1.4 Spark 2.X新特性 6
第2章 Spark的环境搭建 8
2.1环境搭建前的准备 8
2.2 Spark相关配置 12
2.3 Spark集群启动与关闭 16
2.4 Spark应用提交到集群 17
2.5 Spark Web监控页面 18
第3章 开发Spark应用 20
3.1 Java编程语言 20
3.2 Scala编程语言 21
3.3 R编程语言 22
3.4 Python编程语言 23
3.5 PySpark的启动与日志设置 24
3.6 PySpark开发包的安装 26
3.7使用PyCharm编写Spark应用 27
第4章 Spark RDD 34
4.1弹性分布式数据集 34
4.2 transform算子 37
4.3 action算子 40
4.4 RDD Key—Value转换算子 44
4.5 RDD Key—Value动作运算 47
4.6共享变量 48
4.7依赖关系 50
4.8 Spark RDD的持久化 53
第5章 DataFrame与Spark SQL 57
5.1 DataFrame 57
5.2 Spark SQL 61
5.3 Spark SQL、DataFrame的常用操作 66
第6章 Spark Streaming 73
6.1 Spark Streaming介绍 73
6.2流数据加载 74
6.3 DStream转换操作 76
6.4 DStream输出操作 79
6.5 DataFrame与SQL操作 81
6.6实时WordCount实验 82
第7章 Spark机器学习库 86
7.1 Spark机器学习库 86
7.2准备数据 87
7.3使用ML机器学习库 88
第8章 GraphFrames图计算 101
8.1图 101
8.2 GraphFrames介绍 104
8.3 GraphFrame编程模型 105
8.4 GraphFrames实现的算法 110
8.5基于GraphFrames的网页排名 115
第9章 出租车数据分析 118
9.1数据处理 118
9.2数据分析 119
9.3百度地图可视化 121
第10章 图书推荐系统 125
10.1 Django简介 125
10.2 Django项目搭建 129
10.3推荐引擎设计 139
10.4系统设计与实现 145
参考文献 151