第1章 大数据概述 1
1.1 从AlphaGo说起 1
1.2 大数据定义 1
1.3 大数据产生的原因 2
1.4 大数据发展历程 3
1.5 大数据的特征 3
1.6 数据的度量 4
1.7 大数据思维 5
1.8 科学研究范式的发展 6
1.9 大数据的影响及应用 6
1.10 大数据计算模式及产品 7
第2章 数据收集 9
2.1 外部数据收集 9
2.1.1 网络爬虫原理 9
2.1.2 搜索排序策略 10
2.1.3 Web网络图 11
2.1.4 构建爬虫系统 12
2.2 内部数据收集 13
2.2.1 Flume 14
2.2.2 Chukwa 15
第3章 数据存储 17
3.1 文件存储 17
3.1.1 Hadoop简介 17
3.1.2 HDFS设计原则 18
3.1.3 HDFS的基本术语 18
3.1.4 HDFS运行架构 21
3.1.5 HDFS安全设计 22
3.1.6 HDFS的弱点 23
3.2 数据库存储 23
3.2.1 NoSQL简介 23
3.2.2 列族数据库HBase 25
3.2.3 文档数据库MongoDB 29
3.2.4 图数据库 31
3.2.5 键-值对数据库 31
第4章 数据处理 37
4.1 离线批处理框架 37
4.2 MapReduce计算框架 37
4.3 Hadoop简介 46
4.3.1 Hadoop生态圈 46
4.3.2 Hadoop发展历程 47
4.3.3 Hadoop的特点 49
4.3.4 Hadoop的版本 49
4.4 HDFS高可用性架构 50
4.5 HDFS联邦 51
4.6 YARN 53
4.7 Hadoop工具集 56
4.8 消息机制 59
4.8.1 消息处理模型 60
4.8.2 JMS 60
4.9 内存计算框架Spark 62
4.9.1 Spark的配置方式 63
4.9.2 Spark的主要特点 63
4.9.3 Spark生态圈 64
4.9.4 Spark与Hadoop比较 65
4.9.5 Spark运行架构 66
4.9.6 Spark基本运行流程 68
4.9.7 RDD 69
4.10 流式计算框架 75
4.10.1 流式计算处理过程 75
4.10.2 常见的流式计算软件 76
4.10.3 Storm系统 76
4.10.4 Spark Streaming 81
4.10.5 流计算与批处理计算的区别 81
4.11 图计算 82
4.11.1 Pregel图计算框架的提出 83
4.11.2 超步 84
4.11.3 Pregel计算模型 85
4.11.4 Pregel的C+++ API 87
4.11.5 Pregel体系结构 89
4.11.6 容错性 91
第5章 数据可视化 95
5.1 数据可视化定义 96
5.2 数据可视化发展历程 96
5.3 数据可视化的作用 98
5.4 数据可视化设计步骤 99
5.5 数据可视化设计要素 99
5.6 颜色可视化设计 101
5.6.1 色彩空间 101
5.6.2 色彩三要素 102
5.7 数据可视化基本图形选用 104
5.8 数据可视化工具 107
第6章 信息检索 111
6.1 信息检索定义 111
6.2 相关性 112
6.2.1 布尔模型 112
6.2.2 排序布尔模型 112
6.2.3 向量空间模型 114
6.2.4 语言模型 115
6.3 及时性 118
6.4 搜索引擎 119
6.4.1 网页链接分析法 119
6.4.2 电子商务中的商品排序 121
6.4.3 开源搜索引擎 122
6.5 推荐系统 123
6.5.1 何谓推荐系统 123
6.5.2 推荐系统与电商 123
6.5.3 推荐系统数据基础 124
6.5.4 推荐方法 124
6.5.5 开源推荐系统 125
6.6 互联网广告 125
第7章 数据挖掘 129
7.1 基本概念 129
7.1.1 数据挖掘的定义 129
7.1.2 相关技术 130
7.2 数据来源 130
7.3 数据表示与预处理 132
7.4 机器学习算法 133
7.4.1 关联分析 134
7.4.2 分类 136
7.4.3 回归分析算法 173
7.4.4 聚类分析 177
7.5 数据挖掘工具软件 192
第8章 效能评估 195
8.1 效果评估 195
8.1.1 对信息检索的评估 195
8.1.2 对分类的评估 196
8.1.3 对聚类的评估 198
8.2 性能评估 200
附录 Hadoop编年史 203
参考文献 207