第1章 绪论 1
1.1大数据的特点 1
1.2大数据平台 2
1.3医疗健康大数据的应用需求 3
1.4国外研究现状及趋势 5
1.5国内研究现状及趋势 6
第2章 大数据平台Hadoop的系统构成 9
2.1 Hadoop组件 9
2.1.1 HDFS 9
2.1.2 MapReduce 10
2.1.3 HBase 11
2.2伪分布式Hadoop环境部署 12
2.3分布式Hadoop环境部署 16
2.4分布式MongoDB环境部署 18
2.4.1 MongoDB 18
2.4.2环境设置 20
2.4.3集群搭建 20
2.4.4挂载磁盘 26
第3章 大数据平台Hadoop的安全机制 28
3.1概述 28
3.2 Hadoop安全机制 29
3.2.1基本的安全机制 29
3.2.2总体的安全机制 30
3.3 Hadoop组件的安全机制 31
3.3.1 RPC安全机制 31
3.3.2 HDFS安全机制 31
3.3.3 MapReduce安全机制 34
3.4 Hadoop的安全性分析 36
3.4.1 Kerberos认证体系的安全问题 36
3.4.2系统平台的安全问题 36
3.5 Hadoop安全技术架构 37
3.6安全技术工具 39
3.6.1系统安全 39
3.6.2认证授权 40
3.6.3数据安全 42
3.6.4网络安全 44
3.6.5其他集成工具 45
第4章 大数据系统安全体系 47
4.1概述 47
4.2相关研究 47
4.3大数据面临的安全挑战 50
4.4大数据安全需求 51
4.5大数据安全关键技术 53
4.6大数据系统安全体系框架 56
第5章 大数据系统身份认证技术 59
5.1概述 59
5.2 Kerberos认证体系结构 59
5.3身份认证方案 61
5.4身份认证方案实现 63
5.5 Kerberos常用操作 68
5.5.1基本操作 68
5.5.2操作流程 69
第6章 大数据系统访问控制技术 71
6.1概述 71
6.2基于角色的访问控制方案 72
6.3 XACML语言框架 73
6.3.1访问控制框架 73
6.3.2策略语言模型 74
6.4基于XACML的角色访问控制方案实现 75
6.4.1角色访问控制策略描述 75
6.4.2角色访问控制策略实现 76
6.4.3角色访问控制策略测试 77
6.5 Sentry开源组件 79
6.6基于Sentry的细粒度访问控制方案 80
6.6.1加入环境属性约束的访问控制模型 80
6.6.2 MySQL安装配置 81
6.6.3 Hive安装配置 83
6.6.4 Sentry安装配置 85
6.6.5细粒度访问控制模块实现 88
第7章 大数据系统数据加密技术 93
7.1概述 93
7.2透明加密 93
7.3存储数据加密方案实现 95
7.3.1实现步骤 95
7.3.2参数说明 97
7.3.3功能测试 97
7.4 SSL协议 98
7.4.1 SSL协议体系结构 98
7.4.2 SSL协议工作流程 99
7.4.3 Hadoop平台上SSL协议配置 99
7.5传输数据加密方案实现 100
7.5.1传输数据加密需求 100
7.5.2 Hadoop集群内部节点之间数据传输加密配置 101
7.5.3 Hadoop总体加密配置 102
第8章 大数据系统监控技术 103
8.1概述 103
8.2 Ganglia开源工具 103
8.3 Ganglia环境部署 104
8.3.1 Ganglia测试集群rpm包安装方式 104
8.3.2 Ganglia测试集群编译安装方式 109
8.4 Ganglia配置文件 112
8.4.1 gmond配置文件 112
8.4.2 gmetad配置文件 121
8.4.3 gweb配置文件 122
8.5基于Ganglia的状态监控方案实现 122
8.5.1实现步骤 122
8.5.2功能测试 123
8.6基于Zabbix的监控报警方案实现 124
8.6.1 Zabbix简介 124
8.6.2 Zabbix安装配置 124
8.6.3 Web界面操作 127
第9章 大数据系统审计技术 136
9.1概述 136
9.2审计方案 137
9.3开源软件ELK 138
9.4 ELK安装配置 139
9.4.1 Elasticsearch安装 139
9.4.2 Logstash安装 141
9.4.3 Kibana安装 142
9.5基于ELK的审计方案实现 143
9.5.1实现步骤 143
9.5.2功能测试 143
第10章 大数据系统一体化安全管理技术 146
10.1概述 146
10.2网络结构设计 146
10.3安全模块设计 148
10.4软件开发架构 151
10.5软件运行流程 152
10.6软件界面 153
10.7软件测试 159
第11章 大数据系统属性基加密关键技术 163
11.1概述 163
11.2预备知识 164
11.2.1群知识 164
11.2.2双线性配对 165
11.2.3拉格朗日插值定理 165
11.2.4访问结构 165
11.3属性基加密方案 167
11.3.1传统的属性基加密方案 167
11.3.2改进的属性基加密方案 168
11.4属性基加密方案的实现 169
11.4.1属性基加密算法 169
11.4.2属性基加密模块 170
11.5基于属性的大数据认证加密一体化方案 172
11.5.1方案整体架构 172
11.5.2方案运行流程 173
11.5.3安全性分析 175
11.5.4功能测试 175
11.5.5性能测试 176
11.5.6方案总结 177
第12章 大数据系统远程数据审计关键技术 178
12.1概述 178
12.2远程数据审计方案 179
12.2.1基于两方模型的远程数据审计方案 179
12.2.2基于三方模型的远程数据审计方案 180
12.2.3远程数据审计方案需求 181
12.3预备知识 181
12.3.1密码学基础 182
12.3.2数据结构 182
12.3.3分布式计算框架 184
12.3.4系统审计模型 185
12.4单用户远程动态数据审计方案 186
12.4.1方案描述 186
12.4.2方案分析 189
12.4.3方案总结 192
12.5支持并行计算的单用户远程动态数据审计方案 192
12.5.1方案描述 192
12.5.2更新算法描述 193
12.5.3并行计算算法设计 196
12.5.4方案分析 199
12.5.5方案总结 201
12.6多用户远程动态数据审计方案 201
12.6.1方案描述 202
12.6.2动态更新 204
12.6.3方案分析 206
12.6.4方案总结 209
第13章 大数据系统隐私保护关键技术 210
13.1概述 210
13.2隐私保护方案 211
13.2.1隐私保护研究现状 211
13.2.2隐私保护聚类技术研究现状 212
13.2.3隐私保护分类技术研究现状 213
13.3预备知识 214
13.3.1 k-means算法 214
13.3.2决策树C4.5算法 215
13.3.3差分隐私 216
13.4面向聚类的隐私保护方案 216
13.4.1基于MapReduce框架的优化Canopy算法 217
13.4.2基于MapReduce框架的DP k-means算法 218
13.4.3实验结果 218
13.5面向分类的隐私保护方案 219
13.5.1等差隐私预算分配 220
13.5.2基于MapReduce的差分隐私决策树C4.5算法 220
13.5.3实验结果 221
13.6方案总结 223
参考文献 224