第1章 大数据分析基础认知 1
1.1 引言 1
1.2 知识基础 1
1.2.1 基本概念 1
1.2.2 数据科学与其他学科的关系 4
1.3 历史现状 6
1.3.1 发展历史 6
1.3.2 研究现状 8
1.3.3 中国大数据研究与发展战略 10
1.4 主要应用 11
1.4.1 互联网行业主要应用 11
1.4.2 医疗行业主要应用 12
1.4.3 金融行业主要应用 14
1.4.4 交通行业主要应用 14
1.4.5 教育行业主要应用 14
1.5 存在问题 15
1.5.1 数据存储 15
1.5.2 信息安全 15
1.5.3 数据共享 17
1.6 发展趋势 18
1.6.1 大数据技术发展趋势 18
1.6.2 大数据应用发展趋势 19
1.7 小结 21
1.8 习题 22
第2章 大数据分析核心架构 23
2.1 引言 23
2.2 数据分析架构认知基础 23
2.2.1 软件架构 23
2.2.2 数据库及管理系统 26
2.2.3 并行计算 28
2.2.4 分布式计算 29
2.2.5 云计算 32
2.3 分析架构Hadoop 34
2.3.1 Hadoop基础知识 34
2.3.2 Hadoop系统架构 35
2.3.3 Hadoop典型案例 40
2.3.4 Hadoop编程接口 42
2.4 分布式文件系统HDFS 46
2.4.1 HDFS基础知识 46
2.4.2 HDFS系统架构 47
2.4.3 HDFS主要特征 49
2.4.4 HDFS编程接口 51
2.5 分析架构Spark 55
2.5.1 Spark基础知识 55
2.5.2 Spark系统架构 56
2.5.3 Spark主要特征 59
2.5.4 Spark典型案例 61
2.5.5 Spark编程接口 63
2.6 分布式数据库Hbase 66
2.6.1 Hbase基础知识 66
2.6.2 Hbase系统架构 67
2.6.3 Hbase主要特征 69
2.6.4 Hbase编程接口 71
2.7 数据仓库Hive 73
2.7.1 Hive基础知识 73
2.7.2 Hive系统架构 74
2.7.3 Hive主要特征 76
2.7.4 Hive编程接口 77
2.8 小结 79
2.9 习题 80
第3章 大数据分析计算模式 81
3.1 引言 81
3.2 数据分析挖掘认知基础 81
3.2.1 模式识别认知基础 81
3.2.2 数据挖掘认知基础 84
3.3 静态批处理MapReduce 87
3.3.1 基础知识 87
3.3.2 编程模型 88
3.3.3 体系结构 90
3.3.4 工作流程 92
3.3.5 容错机制 95
3.3.6 编程实例 95
3.3.7 典型案例 99
3.4 实时流计算Storm 100
3.4.1 基础知识 100
3.4.2 编程模型 101
3.4.3 体系结构 104
3.4.4 工作流程 104
3.4.5 容错机制 105
3.4.6 编程实例 106
3.4.7 典型案例 107
3.5 图计算Pregel 108
3.5.1 基础知识 108
3.5.2 编程模型 109
3.5.3 体系结构 111
3.5.4 工作流程 112
3.5.5 容错机制 113
3.5.6 编程实例 114
3.5.7 典型案例 116
3.6 数据可视化 118
3.6.1 可视化简介 118
3.6.2 可视化方法 119
3.6.3 可视化技术 122
3.6.4 可视化工具 124
3.6.5 可视化案例 125
3.6.6 可视化发展趋势 126
3.7 小结 127
3.8 习题 127
第4章 大数据与网络空间安全 129
4.1 引言 129
4.2 网络空间安全认知基础 129
4.2.1 信息网络知识基础 130
4.2.2 信息安全对抗的基本概念 132
4.2.3 信息安全对抗基础理论概述 134
4.3 网络空间安全大数据基础资源 137
4.3.1 用户数据 137
4.3.2 行业数据 137
4.3.3 流量日志数据 139
4.3.4 网络舆情数据 139
4.3.5 应用数据集 139
4.4 网络空间大数据安全分析 141
4.4.1 安全事件关联分析 141
4.4.2 网络异常检测分析 143
4.4.3 数据内容安全分析 146
4.4.4 安全态势感知分析 148
4.4.5 安全分析应用案例 152
4.5 网络空间大数据安全防护 156
4.5.1 大数据的威胁与攻击 156
4.5.2 大数据安全防护技术 160
4.5.3 大数据安全建设案例 166
4.6 小结 171
4.7 习题 171
第5章 大数据与自然语言处理 173
5.1 引言 173
5.2 自然语言处理认知基础 174
5.2.1 研究简史 174
5.2.2 基本概念 175
5.2.3 基本方法 175
5.2.4 面临困难 176
5.3 自然语言处理大数据基础资源 176
5.3.1 基础语料库 176
5.3.2 语言知识库 180
5.3.3 知识图谱 182
5.4 自然语言处理大数据分析技术 184
5.4.1 实体关系抽取 185
5.4.2 命名实体识别 190
5.4.3 情感分类 194
5.4.4 文本摘要 198
5.4.5 机器翻译 204
5.4.6 自动问答 206
5.5 自然语言处理大数据分析应用案例 210
5.5.1 IBM沃森大型问答系统 210
5.5.2 百度机器翻译系统 214
5.5.3 微软机器人小冰 216
5.5.4 BFS舆情分析系统 219
5.6 小结 227
5.7 习题 227
第6章 大数据与医学信息处理 229
6.1 引言 229
6.2 医学信息处理基础认知 229
6.2.1 基本概念 229
6.2.2 研究简史 230
6.2.3 基本方法 232
6.2.4 面临困难 233
6.3 医学信息处理大数据基础资源 234
6.3.1 基因数据资源 235
6.3.2 医学图像资源 236
6.3.3 电子健康记录 238
6.3.4 医学语音记录 240
6.4 医学信息处理大数据分析技术 241
6.4.1 基因序列分析 241
6.4.2 医学图像处理 245
6.4.3 电子病历分析 249
6.4.4 医学语音处理 252
6.5 医学信息处理大数据分析应用案例 254
6.5.1 精准医疗 255
6.5.2 糖尿病健康促进系统 259
6.5.3 老年健康综合评估系统 267
6.5.4 远程医疗 271
6.6 小结 273
6.7 习题 274
参考文献 275