上篇 基础理论 3
第1章 机器学习及模型评估 3
1.1 机器学习概述 3
1.2 机器学习的模型评估 7
1.2.1 模型评估的性能度量指标 7
1.2.2 数据集的划分方法 11
1.2.3 机器学习算法的泛化能力 13
1.3 小结 14
第2章 计算学习理论与PAC-Bayes理论 15
2.1 计算学习理论 15
2.1.1 计算学习理论中的常用模型 15
2.1.2 VC维 16
2.2 PAC学习模型与Bayes学习 17
2.2.1 PAC学习模型的基本概念 17
2.2.2 PAC学习模型的样本复杂度 18
2.2.3 贝叶斯学习 20
2.2.4 PAC理论与贝叶斯学习的评价 21
2.3 PAC-Bayes理论 21
2.3.1 PAC-Bayesian定理 22
2.3.2 PAC-Bayes边界定理 27
2.4 小结 30
第3章 统计学习理论与SVM 31
3.1 统计学习理论 31
3.1.1 统计学习理论概述 31
3.1.2 结构风险最小化原则 32
3.2 支持向量机原理 34
3.2.1 最大间隔算法 35
3.2.2 软间隔算法 36
3.2.3 核算法 39
3.3 支持向量机上的PAC-Bayes理论 40
3.4 小结 43
第4章 机器学习算法的PAC-Bayes理论评价 44
4.1 监督学习算法的PAC-Bayes理论评价 44
4.2 无监督学习算法的PAC-Bayes理论评价 45
4.3 半监督学习算法的PAC-Bayes理论评价 46
4.4 其他学习算法的PAC-Bayes理论评价 46
4.5 小结 48
第5章 再生核希尔伯特空间与采样 49
5.1 PAC-Bayes边界在应用和计算中的问题 49
5.2 再生核希尔伯特空间的构造 50
5.2.1 再生核希尔伯特空间的概念 50
5.2.2 概念空间构造 53
5.3 采样方法 55
5.3.1 随机采样 55
5.3.2 MCMC采样 56
5.4 小结 59
第6章 基于MCMC方法的PAC-Bayes理论实现 60
6.1 基于MCMC方法的PAC-Bayes算法实现 60
6.1.1 MCMC方法的算法实现 60
6.1.2 MCMC方法的收敛性 61
6.1.3 KL相对熵的算法实现 63
6.1.4 基于MCMC方法的PAC-Bayes理论的算法实现 63
6.1.5 基于MCMC方法的PAC-Bayes实验结果与分析 65
6.1.6 MCMC优化的算法实现 68
6.1.7 MCMC优化方法的PAC-Bayes实验结果与分析 69
6.2 基于改进MCMC方法的PAC-Bayes理论实现 70
6.2.1 改进的MCMC方法理论分析 70
6.2.2 核密度估计方法 72
6.2.3 基于改进MCMC方法的PAC-Bayes理论算法实现 73
6.2.4 基于改进MCMC方法的PAC-Bayes实验结果与分析 75
6.3 综合对比实验 77
6.3.1 实验设计及实现 77
6.3.2 综合对比实验结果与分析 83
6.4 小结 86
下篇 应用实践 89
第7章 PAC-Bayes理论的应用 89
7.1 PAC-Bayes理论指导模型选择和性能评价 89
7.2 利用PAC-Bayes边界推导更紧的风险边界 89
7.3 PAC-Bayes边界指导设计新的学习算法 91
7.4 PAC-Bayes边界的计算问题 93
7.5 非独立同分布数据的PAC-Bayes边界分析 93
7.6 小结 94
第8章 PAC-Bayes理论应用于SVM算法评价 96
8.1 PAC-Bayes理论评价SVM算法的泛化性能 96
8.1.1 评价泛化性能的算法实现 96
8.1.2 实验设计 98
8.1.3 实验结果与分析 98
8.2 PAC-Bayes理论应用于SVM的模型选择 107
8.2.1 SVM模型选择的理论分析 107
8.2.2 实验设计 109
8.2.3 实验结果与分析 109
8.3 PAC-Bayes理论与交叉验证方法 111
8.3.1 实验设计 111
8.3.2 实验结果与分析 112
8.4 小结 112
第9章 SVM及PAC-Bayes理论在Web文档上的应用 113
9.1 Web文档的研究现状 113
9.2 理论分析 114
9.2.1 建立模型 114
9.2.2 特征提取 114
9.2.3 性能度量 115
9.2.4 算法实现 116
9.3 实验结果与分析 118
9.3.1 五折交叉验证方法的实验结果及分析 118
9.3.2 核函数的实验结果及分析 119
9.3.3 模型选择的实验结果及分析 119
9.3.4 开放测试和封闭测试的实验结果及分析 120
9.4 小结 121
第10章 SVM及PAC-Bayes理论在蛋白质预测上的应用 122
10.1 蛋白质结构的研究现状 122
10.2 理论分析 124
10.3 实验结果与分析 126
10.4 小结 127
第11章 机器学习算法在空气质量上的应用 128
11.1 空气质量预测的研究现状 128
11.2 京津冀空气质量的理论分析 129
11.3 京津冀空气质量的实验结果与分析 131
11.3.1 基于SVM与回归分析的京津冀空气质量研究 131
11.3.2 基于SVM算法的京津冀2017年空气质量预测研究 135
11.4 全国空气质量的理论分析 137
11.5 全国空气质量的实验结果与分析 138
11.5.1 基于K-Means聚类算法的全国空气质量研究 138
11.5.2 每月聚类结果与分析 144
11.6 小结 151
第12章 Bayes算法在京津冀一体化研究上的应用 152
12.1 研究现状 152
12.2 理论分析 153
12.2.1 京津冀区域一体化程度分析 153
12.2.2 贝叶斯定理 161
12.2.3 朴素贝叶斯分类算法 161
12.2.4 基于朴素贝叶斯算法的京津冀一体化程度预测 163
12.3 算法实现与实验结果 163
12.3.1 朴素贝叶斯算法实现及实验结果 163
12.3.2 朴素贝叶斯算法的不足 167
12.3.3 朴素贝叶斯算法的改进 168
12.4 小结 168
第13章 SVM算法在高校科研人才评价上的应用 170
13.1 高校科研人才评价的研究现状 170
13.2 理论分析与算法实现 171
13.3 实验结果与分析 174
13.4 小结 176
第14章 SVM及PAC-Bayes理论在中国货币供应量上的应用 177
14.1 货币供应量 177
14.1.1 货币供应量的含义 177
14.1.2 中国货币供应量的具体划分 178
14.1.3 中国货币供应量的现状 178
14.2 理论分析 179
14.2.1 SVM分类 179
14.2.2 PAC-Bayes边界 179
14.3 算法实现与实验结果 180
14.3.1 SVM分类的算法实现及实验结果 180
14.3.2 PAC-Bayes边界的实现及实验结果 180
14.4 实验结论分析及发展前景 181
14.4.1 实验结论分析 181
14.4.2 中国货币供应量的前景以及PAC-Bayes的前景 181
14.5 小结 181
第15章 大数据和云计算的研究展望 182
15.1 大数据上的PAC-Bayes理论研究展望 182
15.1.1 大数据介绍 182
15.1.2 大数据与PAC-Bayesian理论 183
15.2 云计算的研究现状及展望 184
15.2.1 云计算和虚拟化技术 184
15.2.2 云计算的体系结构 185
15.2.3 虚拟机动态整合的优化目标 186
15.2.4 虚拟机动态整合关键技术 187
15.2.5 虚拟机动态整合的展望 194
15.3 小结 195
参考文献 196