第1章 数据挖掘简介 1
1.1数据爆炸 1
1.2知识发现 2
1.3数据挖掘的应用 3
1.4标签和无标签数据 4
1.5监督学习:分类 4
1.6监督学习:数值预测 5
1.7无监督学习:关联规则 6
1.8无监督学习:聚类 7
第2章 用于挖掘的数据 9
2.1标准制定 9
2.2变量的类型 10
2.3数据准备 11
2.4缺失值 13
2.4.1丢弃实例 13
2.4.2用最频繁值/平均值替换 13
2.5减少属性个数 14
2.6数据集的UCI存储库 15
2.7本章小结 15
2.8自我评估练习 15
第3章 分类简介:朴素贝叶斯和最近邻算法 17
3.1什么是分类 17
3.2朴素贝叶斯分类器 18
3.3最近邻分类 24
3.3.1距离测量 26
3.3.2标准化 28
3.3.3处理分类属性 29
3.4急切式和懒惰式学习 30
3.5本章小结 30
3.6自我评估练习 30
第4章 使用决策树进行分类 31
4.1决策规则和决策树 31
4.1.1决策树:高尔夫示例 31
4.1.2术语 33
4.1.3 degrees数据集 33
4.2 TDIDT算法 36
4.3推理类型 38
4.4本章小结 38
4.5自我评估练习 39
第5章 决策树归纳:使用熵进行属性选择 41
5.1属性选择:一个实验 41
5.2替代决策树 42
5.2.1足球/无板篮球示例 42
5.2.2匿名数据集 44
5.3选择要分裂的属性:使用熵 46
5.3.1 lens24数据集 46
5.3.2熵 47
5.3.3使用熵进行属性选择 48
5.3.4信息增益最大化 50
5.4本章小结 51
5.5自我评估练习 51
第6章 决策树归纳:使用频率表进行属性选择 53
6.1实践中的熵计算 53
6.1.1等效性证明 55
6.1.2关于零值的说明 56
6.2其他属性选择标准:多样性基尼指数 56
6.3x2属性选择准则 57
6.4归纳偏好 60
6.5使用增益比进行属性选择 61
6.5.1分裂信息的属性 62
6.5.2总结 63
6.6不同属性选择标准生成的规则数 63
6.7缺失分支 64
6.8本章小结 65
6.9自我评估练习 65
第7章 估计分类器的预测精度 67
7.1简介 67
7.2方法1:将数据划分为训练集和测试集 68
7.2.1标准误差 68
7.2.2重复训练和测试 69
7.3方法2: k-折交叉验证 70
7.4方法3: N-折交叉验证 70
7.5实验结果Ⅰ 71
7.6实验结果Ⅱ:包含缺失值的数据集 73
7.6.1策略1:丢弃实例 73
7.6.2策略2:用最频繁值/平均值替换 74
7.6.3类别缺失 75
7.7混淆矩阵 75
7.8本章小结 77
7.9自我评估练习 77
第8章 连续属性 79
8.1简介 79
8.2局部与全局离散化 81
8.3向TDIDT添加局部离散化 81
8.3.1计算一组伪属性的信息增益 82
8.3.2计算效率 86
8.4使用ChiMerge算法进行全局离散化 88
8.4.1计算期望值和x2 90
8.4.2查找阈值 94
8.4.3设置minIntervals和maxIntervals 95
8.4.4 ChiMerge算法:总结 96
8.4.5对ChiMerge算法的评述 96
8.5比较树归纳法的全局离散化和局部离散化 97
8.6本章小结 98
8.7自我评估练习 98
第9章 避免决策树的过度拟合 99
9.1处理训练集中的冲突 99
9.2关于过度拟合数据的更多规则 103
9.3预剪枝决策树 104
9.4后剪枝决策树 106
9.5本章小结 111
9.6自我评估练习 111
第10章 关于熵的更多信息 113
10.1简介 113
10.2使用位的编码信息 116
10.3区分值 117
10.4对“非等可能”的值进行编码 118
10.5训练集的熵 121
10.6信息增益必须为正数或零 122
10.7使用信息增益来简化分类任务的特征 123
10.7.1示例1:genetics数据集 124
10.7.2示例2: bcst96数据集 126
10.8本章小结 128
10.9自我评估练习 128
第11章 归纳分类的模块化规则 129
11.1规则后剪枝 129
11.2冲突解决 130
11.3决策树的问题 133
11.4 Prism算法 135
11.4.1基本Prism算法的变化 141
11.4.2将Prism算法与TDIDT算法进行比较 142
11.5本章小结 143
11.6自我评估练习 143
第12章 度量分类器的性能 145
12.1真假正例和真假负例 146
12.2性能度量 147
12.3真假正例率与预测精度 150
12.4 ROC图 151
12.5 ROC曲线 153
12.6寻找最佳分类器 153
12.7本章小结 155
12.8自我评估练习 155
第13章 处理大量数据 157
13.1简介 157
13.2将数据分发到多个处理器 159
13.3案例研究:PMCRI 161
13.4评估分布式系统PMCRI的有效性 163
13.5逐步修改分类器 167
13.6本章小结 171
13.7自我评估练习 171
第14章 集成分类 173
14.1简介 173
14.2估计分类器的性能 175
14.3为每个分类器选择不同的训练集 176
14.4为每个分类器选择一组不同的属性 177
14.5组合分类:替代投票系统 177
14.6并行集成分类器 180
14.7本章小结 181
14.8 自我评估练习 181
第15章 比较分类器 183
15.1简介 183
15.2配对t检验 184
15.3为比较评估选择数据集 189
15.4抽样 191
15.5“无显著差异”的结果有多糟糕? 193
15.6本章小结 194
15.7自我评估练习 194
第16章 关联规则挖掘Ⅰ 195
16.1简介 195
16.2规则兴趣度的衡量标准 196
16.2.1 Piatetsky-Shapiro标准和RI度量 198
16.2.2规则兴趣度度量应用于chess数据集 200
16.2.3使用规则兴趣度度量来解决冲突 201
16.3关联规则挖掘任务 202
16.4找到最佳N条规则 202
16.4.1 J-Measure:度量规则的信息内容 203
16.4.2搜索策略 204
16.5本章小结 207
16.6自我评估练习 207
第17章 关联规则挖掘Ⅱ 209
17.1简介 209
17.2事务和项目集 209
17.3对项目集的支持 211
17.4关联规则 211
17.5生成关联规则 213
17.6 Apriori 214
17.7生成支持项目集:一个示例 217
17.8为支持项目集生成规则 219
17.9规则兴趣度度量:提升度和杠杆率 220
17.10本章小结 222
17.11自我评估练习 222
第18章 关联规则挖掘Ⅲ:频繁模式树 225
18.1简介:FP-growth 225
18.2构造FP-tree 227
18.2.1预处理事务数据库 227
18.2.2初始化 229
18.2.3处理事务1:f,c, a,m, p 230
18.2.4处理事务2:f,c, a,b, m 231
18.2.5处理事务3:f,b 235
18.2.6处理事务4: c, b,p 236
18.2.7处理事务5:f,c, a,m,p 236
18.3从FP-tree中查找频繁项目集 238
18.3.1以项目p结尾的项目集 240
18.3.2以项目m结尾的项目集 248
18.4本章小结 254
18.5自我评估练习 254
第19章 聚类 255
19.1简介 255
19.2 k-means聚类 257
19.2.1示例 258
19.2.2找到最佳簇集 262
19.3凝聚式层次聚类 263
19.3.1记录簇间距离 265
19.3.2终止聚类过程 268
19.4本章小结 268
19.5自我评估练习 268
第20章 文本挖掘 269
20.1多重分类 269
20.2表示数据挖掘的文本文档 270
20.3停用词和词干 271
20.4使用信息增益来减少特征 272
20.5表示文本文档:构建向量空间模型 272
20.6规范权重 273
20.7测量两个向量之间的距离 274
20.8度量文本分类器的性能 275
20.9超文本分类 275
20.9.1对网页进行分类 276
20.9.2超文本分类与文本分类 277
20.10本章小结 279
20.11自我评估练习 280
第21章 分类流数据 281
21.1简介 281
21.2构建H-Tree:更新数组 283
21.2.1 currentAtts数组 284
21.2.2 splitAtt数组 284
21.2.3将记录排序到适当的叶节点 284
21.2.4 hitcount数组 285
21.2.5 classtotals数组 285
21.2.6 acvCounts阵列 285
21.2.7 branch数组 286
21.3构建H-Tree:详细示例 287
21.3.1步骤1:初始化根节点0 287
21.3.2步骤2:开始读取记录 287
21.3.3步骤3:考虑在节点0处分裂 288
21.3.4步骤4:在根节点上拆分并初始化新的叶节点 289
21.3.5步骤5:处理下一组记录 290
21.3.6步骤6:考虑在节点2处分裂 292
21.3.7步骤7:处理下一组记录 292
21.3.8 H-Tree算法概述 293
21.4分裂属性:使用信息增益 295
21.5分裂属性:使用Hoeffding边界 297
21.6 H-Tree算法:最终版本 300
21.7使用不断进化的H-Tree进行预测 302
21.8实验:H-Tree与TDIDT 304
21.8.1 lens24数据集 304
21.8.2 vote数据集 306
21.9本章小结 307
21.10自我评估练习 307
第22章 分类流数据Ⅱ:时间相关数据 309
22.1平稳数据与时间相关数据 309
22.2 H -Tree算法总结 311
22.2.1 currentAtts数组 312
22.2.2 splitAtt数组 312
22.2.3 hitcount数组 312
22.2.4 classtotals数组 312
22.2.5 acvCounts数组 313
22.2.6 branch数组 313
22.2.7 H-Tree算法的伪代码 313
22.3从H-Tree到CDH-Tree:概述 315
22.4从H-Tree转换到CDH-Tree:递增计数 315
22.5滑动窗口法 316
22.6在节点处重新分裂 320
22.7识别可疑节点 320
22.8创建备用节点 322
22.9成长/遗忘备用节点及其后代 325
22.10用备用节点替换一个内部节点 327
22.11实验:跟踪概念漂移 333
22.11.1 lens24数据:替代模式 335
22.11.2引入概念漂移 335
22.11.3使用交替lens24数据的实验 336
22.11.4关于实验的评论 343
22.12本章小结 343
22.13自我评估练习 343
附录A基本数学知识 345
附录B数据集 357
附录C更多信息来源 371
附录D词汇表和符号 373
附录E自我评估练习题答案 391
参考文献 419