第1章 Hadoop大数据平台概述 1
1.1 Hadoop大数据平台起源 1
1.1.1 Hadoop发展历程 1
1.1.2 Hadoop核心组件 2
1.1.3 Hadoop与云计算的关系 3
1.2 Hadoop集群搭建和简单应用 3
1.2.1集群服务器规划 3
1.2.2 Hadoop软件安装 4
1.2.3 Hadoop命令行的基本使用 9
本章小结 11
第2章 Hadoop分布式文件系统 12
2.1 HDFS概述 12
2.1.1 HDFS的概念和特性 12
2.1.2 HDFS的局限性 13
2.1.3 HDFS保证可靠性的措施 14
2.1.4单点故障(单点失效)问题 14
2.2 HDFS Shell命令 15
2.2.1常见Shell命令 15
2.2.2其他HDFS Shell命令 18
2.3对HDFS的深入理解 21
2.3.1 HDFS的优点和缺点 21
2.3.2 HDFS的辅助功能 22
2.4 HDFS读写过程 28
2.4.1 HDFS写入数据过程 28
2.4.2 HDFS读取数据过程 29
2.5分布式集群中HDFS的各种角色 30
2.5.1 NameNode的可靠性 30
2.5.2 DataNode的可靠性 31
2.5.3元数据的CheckPoint 31
本章小结 32
第3章 MapReduce并行计算框架 33
3.1 MapReduce概述 33
3.1.1为什么需要MapReduce? 33
3.1.2 MapReduce程序运行演示 34
3.1.3 WordCount.java源码分析 36
3.1.4编写自己的WordCount程序 39
3.2 MapReduce的核心运行机制 43
3.3 MapReduce的多Job串联和全局计数器 45
3.3.1 MapReduce的多Job串联 45
3.3.2全局计数器 46
3.3.3计数器该如何使用? 50
3.3.4 MapReduce框架Partitioner分区 51
3.3.5 MapReduce框架Combiner分区 53
3.4 YARN的资源调度 53
本章小结 56
第4章 HBase分布式数据库 57
4.1 HBase数据库概述 57
4.1.1 HBase数据库的使用场景 57
4.1.2 HBase数据库的安装 59
4.2 HBase数据库物理架构 64
4.2.1 HBase集群节点类型 64
4.2.2 HBase数据存储 65
4.3 HBase数据库操作 67
4.3.1 HBase命令行的启动 67
4.3.2 HBase表的操作 68
4.3.3 HBase表中数据的操作 71
4.4 HBase数据库的API操作 73
本章小结 83
第5章 Hive数据仓库 84
5.1 Hive简介 84
5.1.1什么是Hive? 84
5.1.2 Hive的数据组织 86
5.1.3 Hive的表类型 87
5.2 Hive的安装与使用 87
5.2.1 Hive的安装配置 87
5.2.2 Hive的基本使用 91
5.2.3 Hive的连接方式 94
5.3 Hive数据结构 96
5.3.1 Hive数据类型 96
5.3.2 Hive数据存储格式 97
5.3.3数据格式 98
5.4 Hive数据操作 98
5.4.1管理库 98
5.4.2表操作 101
5.5 Hive应用案例 112
5.5.1统计单月访问次数和总访问次数 112
5.5.2学生课程成绩统计 116
本章小结 130
第6章 Kafka消息系统 132
6.1 Kafka消息系统的功能 132
6.1.1 Kafka概述 132
6.1.2 Kafka组件架构 134
6.1.3 Kafka软件安装 135
6.1.4 Kafka服务的启动 137
6.2 Kafka组件术语 138
6.2.1主题与日志 138
6.2.2 Kafka日志处理 143
6.2.3消息副本 146
6.2.4数据处理场景 149
6.2.5生产者 153
6.2.6消费者 155
本章小结 158
第7章 Flume日志处理系统 159
7.1 Flume的简介 159
7.1.1 Flume概述 159
7.1.2 Flume NG的介绍 160
7.1.3 Flume的部署类型 161
7.2 Flume的安装与配置 164
7.2.1 Flume的下载与安装 164
7.2.2 Flume Sources描述 165
7.3 Flume代理流配置 167
7.3.1单一代理流配置 167
7.3.2单代理多流配置 167
7.3.3配置多代理流程 167
7.3.4多路复用流 167
本章小结 168
第8章 ZooKeeper分布式协调系统 169
8.1分布式协调技术概述 169
8.2 ZooKeeper概述 172
8.3 ZooKeeper监听机制 175
8.3.1 Watch触发器 175
8.3.2监听原理 176
8.3.3 ZooKeeper应用举例 176
8.4 ZooKeeper的安装与集群配置 179
8.4.1 ZooKeeper的安装 180
8.4.2使用ZooKeeper命令的简单操作步骤 186
本章小结 188
第9章 Sqoop数据迁移工具 190
9.1 Sqoop功能概述 190
9.1.1 Sqoop软件介绍 190
9.1.2 Sqoop软件安装 191
9.2 Sqoop命令操作 192
9.2.1 Sqoop的基本命令 192
9.2.2 Sqoop的数据导入 195
9.2.3将MySQL数据库中的表数据导入Hive 199
9.2.4将MySQL数据库中的表数据导入HBase 204
本章小结 204
参考文献 205