第1章 大数据的时代背景 1
1.1 大数据的产生 2
1.2 大数据战略 3
1.2.1 大数据战略的内涵及意义 3
1.2.2 中国大数据战略的层次体系 4
1.3 大数据的应用 8
1.3.1 大数据在电子政务中的应用 8
1.3.2 大数据在网络通信行业中的应用 10
1.3.3 大数据在医疗行业中的应用 11
1.3.4 大数据在能源行业中的应用 12
1.3.5 大数据在零售行业中的应用 15
1.4 大数据人才的需求 15
1.4.1 大数据人才的能力要求 16
1.4.2 大数据人才的分类 17
1.5 数据科学与大数据技术专业 18
1.5.1 数据科学与大数据技术专业的定位 20
1.5.2 数据科学与大数据技术专业的培养目标 21
第2章 大数据初识 22
2.1 大数据的定义 22
2.2 大数据的特征 23
2.3 典型行业的大数据 24
2.3.1 金融行业的大数据 24
2.3.2 健康医疗行业的大数据 25
2.3.3 电信行业的大数据 25
2.3.4 电子商务行业的大数据 26
第3章 大数据技术初识 28
3.1 数据分析流程 28
3.1.1 数据分析的基本流程 29
3.1.2 数据预处理 29
3.1.3 数据探查 30
3.1.4 数据建模与应用 30
3.1.5 数据可视化 31
3.2 数据分析技术 33
3.2.1 经典数据挖掘 35
3.2.2 机器学习简介 41
3.2.3 模型评估 48
3.3 大数据技术框架与生态 54
3.3.1 Hadoop 56
3.3.2 Spark 60
3.3.3 NoSQL 63
第4章 大数据分析教学平台——BDAP 66
4.1 BDAP简介 66
4.1.1 大数据教学的现状与挑战 66
4.1.2 BDAP总览 67
4.1.3 BDAP的特点与优势 68
4.2 BDAP的功能 68
4.2.1 文件管理功能 70
4.2.2 数据挖掘功能 74
4.2.3 可视化功能 79
4.2.4 深度学习探索功能 81
4.2.5 在线编程功能 82
4.2.6 作业管理功能 83
4.2.7 视频人物社交关系分析功能 85
4.3 BDAP的使用方法 85
4.3.1 注册与登录 85
4.3.2 文件上传/下载 86
4.3.3 工作流搭建 87
4.3.4 示例查看 89
第5章 大数据分析教学平台的实验解析 90
5.1 数据预处理实验 91
5.1.1 数据导入实验解析 91
5.1.2 数据清洗实验解析 93
5.1.3 数据生成与筛选实验解析 97
5.1.4 数据聚合与排序实验解析 100
5.2 基础实验 104
5.2.1 分类算法实验解析 104
5.2.2 聚类算法实验解析 112
5.2.3 关联规则实验解析 117
第6章 大数据分析教学平台的扩展实验案例 124
6.1 BDAP的扩展算法实验 125
6.1.1 分类及聚类实验 125
6.1.2 文本分析实验 134
6.1.3 协同过滤实验 139
6.2 复杂网络分析实验 143
6.2.1 图基本属性实验 145
6.2.2 社团发现实验 147
6.2.3 最小生成树实验 149
6.3 在线编程实验 151
6.3.1 k-means算法编程实验 152
6.3.2 手写数字识别实验 155
第7章 从初识走向熟练:个性化培养 159
7.1 能力测试 159
7.2 个性化培养目标及途径 162
7.3 技术渐进 162
7.3.1 深度学习 163
7.3.2 自然语言处理 167
7.3.3 计算机视觉 171
7.3.4 图计算 176
7.4 经典案例 178
7.4.1 Kaggle——以手写数字识别为例 179
7.4.2 阿里云天池——以新闻文本分类为例 185
7.4.3 Biendata 190
第8章 科教融合展望 194
8.1 BDAP的教与学 194
8.1.1 结合BDAP的教学方法 194
8.1.2 结合大数据特点的实验课程体系建设 195
8.1.3 教学实践经验总结 195
8.2 BDAP的科教融合 196
8.2.1 科教融合的内涵 197
8.2.2 大数据专业科教融合的特征 197
8.2.3 科教融合下的课程建设思路与实施步骤 198
8.2.4 实施科教融合的难点 199
参考文献 201