第1章 大数据 1
1.1大数据概述 1
1.1.1大数据介绍 1
1.1.2大数据的特征 5
1.1.3大数据技术应用与基础 7
1.2大数据的意义 17
1.2.1大数据的国家战略意义 17
1.2.2大数据的企业意义 19
1.2.3我国大数据市场的预测 19
1.3大数据的产业链分析 20
1.3.1技术分析 20
1.3.2运营分析 20
1.4本章小结 21
1.5实训 22
习题 29
第2章 爬虫与大数据 31
2.1爬虫概述 31
2.1.1爬虫介绍 31
2.1.2爬虫的地位与作用 32
2.2 Python介绍 33
2.2.1 Python开发环境搭建 33
2.2.2编写Python程序 38
2.2.3 Python数据类型 40
2.3爬虫相关知识 47
2.3.1了解网页结构 47
2.3.2 Python与爬虫 49
2.3.3基础爬虫框架 52
2.4利用爬虫抓取网页内容 54
2.4.1观察与分析页面 54
2.4.2抓取过程分析 55
2.4.3获取页面内容 56
2.5本章小结 57
2.6实训 57
习题 63
第3章 Scrapy爬虫 64
3.1 Scrapy爬虫概述 64
3.2 Scrapy原理 66
3.2.1 Scrapy框架的架构 66
3.2.2 Request对象和Response对象 68
3.2.3 Select对象 71
3.2.4 Spider开发流程 74
3.3 Scrapy的开发与实现 76
3.3.1 Scrapy爬虫开发流程 76
3.3.2创建Scrapy项目并查看结构 77
3.3.3编写代码并运行爬虫 79
3.4本章小结 80
3.5实训 81
习题 84
第4章 数据库连接与查询 85
4.1数据库 85
4.1.1数据库概述 85
4.1.2关系数据库设计 89
4.2 MySQL数据库 91
4.2.1 MySQL数据库概述 91
4.2.2 MySQL数据库下载、安装与运行 91
4.2.3 MySQL数据库命令行入门 93
4.3使用Python操作MySQL数据库 98
4.3.1 pymysql安装与使用 98
4.3.2 Python连接MySQL数据库 99
4.4本章小结 105
4.5实训 105
习题 106
第5章 数据可视化基础与应用 107
5.1数据可视化 107
5.1.1数据可视化概述 107
5.1.2数据可视化工具 114
5.1.3数据可视化图表 116
5.2 matplotlib可视化基础 121
5.2.1 numpy库 121
5.2.2 matplotlib认识与安装 126
5.2.3 matplotlib测试 127
5.2.4 matplotlib.pyplot库 128
5.3 matplotlib可视化绘图 132
5.3.1绘制线性图形 132
5.3.2绘制柱状图形 133
5.3.3绘制直方图 135
5.3.4绘制散点图 135
5.3.5绘制极坐标图 136
5.3.6绘制饼图 138
5.4 pyecharts可视化应用 139
5.5本章小结 144
5.6实训 144
习题 148
第6章 大数据存储与清洗 150
6.1大数据存储 150
6.2数据清洗 158
6.2.1数据清洗概述 158
6.2.2数据清洗的原理 160
6.2.3数据清洗的流程 161
6.2.4数据清洗的工具 163
6.3数据标准化 165
6.3.1数据标准化的概念 165
6.3.2数据标准化的方法 165
6.3.3数据标准化的实例 166
6.4本章小结 167
6.5实训 167
习题 179
第7章 数据格式与编码技术 180
7.1文件格式 180
7.2数据类型与编码 185
7.2.1数据类型概述 185
7.2.2字符编码 189
7.2.3数据转换 191
7.3 Kettle数据清洗与转换工具的使用 194
7.3.1 Kettle概述 194
7.3.2 Kettle的安装与使用 195
7.4 CSV格式的数据转换 199
7.4.1 CSV格式概述 199
7.4.2 CSV与JSON文件的转换 204
7.5本章小结 207
7.6实训 208
习题 211
第8章 数据抽取与采集 212
8.1数据抽取 212
8.2文本抽取与实现 216
8.2.1文本文件抽取 216
8.2.2 CSV文件抽取 223
8.2.3 JSON文件抽取 226
8.3网页数据抽取与实现 229
8.3.1网页数据抽取 229
8.3.2 Excel抽取网页数据 229
8.3.3 Kettle抽取网页数据 231
8.4数据采集与实现 237
8.5本章小结 240
8.6实训 241
习题 255
第9章 pandas数据分析与清洗 256
9.1认识pandas 256
9.2 pandas语法与使用 258
9.3 pandas读取与清洗数据 272
9.3.1数据准备 272
9.3.2从CSV中读取数据 272
9.3.3 pandas数据清洗 275
9.4 pandas数据可视化 281
9.4.1 pandas绘图概述 281
9.4.2 pandas绘图方法 281
9.5本章小结 288
9.6实训 288
习题 297
第10章 数据分析与清洗综合实训 298
10.1数据清洗实训 298
10.1.1使用Kettle对生成的随机数实现字段选择 298
10.1.2使用Kettle连接不同的数据表 302
10.1.3使用Kettle过滤数据表 309
10.1.4使用Kettle连接MySQL数据库,并输出查询结果 312
10.2数据分析实训 315
10.3本章小结 319
习题 320