第1章 流数据与流计算 1
1.1 大数据 1
1.1.1 大数据的发展 1
1.1.2 大数据的概念 3
1.1.3 大数据思维 4
1.2 流数据 5
1.2.1 流数据的场景 5
1.2.2 流数据的特点 6
1.2.3 流数据的概念 9
1.3 流数据处理 10
1.3.1 批处理模型 10
1.3.2 流式处理模型 12
1.3.3 流式处理与窗口模型 16
1.3.4 流式处理与概要结构 18
1.3.5 批处理与流式处理的对比 20
1.4 流数据分析 22
1.4.1 频繁项挖掘算法 22
1.4.2 聚类算法 24
1.4.3 分类算法 26
1.4.4 回归算法 29
1.5 流数据机器学习 32
1.6 小结 34
本章知识点 35
扩展阅读 36
习题1 36
第2章 流数据概要结构构建技术 37
2.1 流数据处理的概要结构 37
2.2 抽样概要结构 38
2.2.1 抽样 38
2.2.2 伯努利抽样 40
2.2.3 水库抽样 41
2.2.4 简明抽样 42
2.3 草图概要结构 44
2.3.1 草图 44
2.3.2 计数草图 47
2.3.3 增广草图 48
2.3.4 布隆过滤器 49
2.3.5 FM基数估计草图 50
2.4 小波概要结构 52
2.5 直方图概要结构 54
2.5.1 直方图 54
2.5.2 等宽直方图 55
2.6 小结 56
本章知识点 57
扩展阅读 58
习题2 58
第3章 流数据频繁模式挖掘技术 59
3.1 频繁模式挖掘问题的定义 59
3.2 不同窗口模型的频繁模式挖掘 60
3.3 频繁项挖掘算法 61
3.3.1 黏性抽样算法 61
3.3.2 KPS算法 62
3.4 频繁模式挖掘算法 64
3.4.1 有损计数算法 64
3.4.2 有损计数算法扩展 66
3.5 频繁模式挖掘的其他相关问题 68
3.6 小结 69
本章知识点 69
扩展阅读 70
习题3 70
第4章 流数据聚类分析技术 72
4.1 聚类算法 72
4.2 流数据聚类的评价 73
4.2.1 内部度量 74
4.2.2 外部度量 74
4.3 不同窗口模型的聚类分析 76
4.4 基于划分的流数据聚类算法 77
4.4.1 STREAM算法 77
4.4.2 K-Center算法 78
4.5 基于层次的流数据聚类算法 79
4.6 基于密度的流数据聚类算法 80
4.7 基于网格的流数据聚类算法 81
4.8 其他流数据聚类算法 82
4.8.1 K-Median算法 82
4.8.2 BIRCH算法 83
4.9 小结 83
本章知识点 85
扩展阅读 86
习题4 86
第5章 流数据分类分析技术 87
5.1 分类算法 87
5.2 流数据分类的评价 88
5.2.1 误差估计 88
5.2.2 性能评价指标 90
5.2.3 统计显著性 92
5.2.4 成本度量 93
5.3 基于贝叶斯的分类算法 93
5.4 基于决策树的分类算法 95
5.4.1 快速决策树算法 95
5.4.2 概念自适应快速决策树算法 97
5.5 其他流数据分类算法 100
5.5.1 VFDTc和UFFT算法 100
5.5.2 Hoeffding自适应树算法 100
5.6 小结 101
本章知识点 102
扩展阅读 103
习题5 103
第6章 流数据学习与时间序列分析技术 104
6.1 时间序列 104
6.1.1 时间序列的分类与特征 104
6.1.2 时间序列的表示与拟合 107
6.1.3 时间序列的预测 110
6.2 在线学习模型 114
6.3 流数据学习评价 117
6.3.1 误差 117
6.3.2 Regret界 120
6.4 模型学习算法 120
6.4.1 ARIMA算法 120
6.4.2 在线ARIMA算法 122
6.5 实例学习算法 125
6.5.1 岭回归与LASSO回归 125
6.5.2 FIMT算法 128
6.5.3 AMRules算法 130
6.6 最优化算法 131
6.6.1 SGD算法 131
6.6.2 FTRL算法 134
6.7 小结 135
本章知识点 136
扩展阅读 137
习题6 138
第7章 流数据处理模型与框架 140
7.1 流数据处理计算模型 140
7.2 流计算的状态与一致性 143
7.2.1 流计算的状态 143
7.2.2 流计算的一致性 144
7.3 流计算处理中的时间 145
7.4 流计算实现框架 148
7.5 Storm流处理框架 150
7.5.1 基于流的处理拓扑结构 150
7.5.2 记录级容错 151
7.5.3 Storm的系统架构 153
7.6 Spark流处理框架 155
7.6.1 基于RDD的微批处理结构 156
7.6.2 基于RDD依赖的容错 158
7.6.3 Spark的系统架构 160
7.7 Flink流处理框架 162
7.7.1 基于流水线的处理结构 162
7.7.2 基于分布式快照的容错 165
7.7.3 Flink的系统架构 169
7.8 小结 173
本章知识点 174
扩展阅读 175
习题7 175
参考文献 176