数据挖掘原理pdf电子书下载

书籍介绍

查看更多关于的内容

图书目录

第1章数据挖掘简介 1

1.1数据爆炸 1

1.2知识发现 2

1.3数据挖掘的应用 3

1.4标签和无标签数据 4

1.5监督学习：分类 4

1.6监督学习：数值预测 5

1.7无监督学习：关联规则 6

1.8无监督学习：聚类 7

第2章用于挖掘的数据 9

2.1标准制定 9

2.2变量的类型 10

2.3数据准备 11

2.4缺失值 13

2.4.1丢弃实例 13

2.4.2用最频繁值/平均值替换 13

2.5减少属性个数 14

2.6数据集的UCI存储库 15

2.7本章小结 15

2.8自我评估练习 15

第3章分类简介：朴素贝叶斯和最近邻算法 17

3.1什么是分类 17

3.2朴素贝叶斯分类器 18

3.3最近邻分类 24

3.3.1距离测量 26

3.3.2标准化 28

3.3.3处理分类属性 29

3.4急切式和懒惰式学习 30

3.5本章小结 30

3.6自我评估练习 30

第4章使用决策树进行分类 31

4.1决策规则和决策树 31

4.1.1决策树：高尔夫示例 31

4.1.2术语 33

4.1.3 degrees数据集 33

4.2 TDIDT算法 36

4.3推理类型 38

4.4本章小结 38

4.5自我评估练习 39

第5章决策树归纳：使用熵进行属性选择 41

5.1属性选择：一个实验 41

5.2替代决策树 42

5.2.1足球/无板篮球示例 42

5.2.2匿名数据集 44

5.3选择要分裂的属性：使用熵 46

5.3.1 lens24数据集 46

5.3.2熵 47

5.3.3使用熵进行属性选择 48

5.3.4信息增益最大化 50

5.4本章小结 51

5.5自我评估练习 51

第6章决策树归纳：使用频率表进行属性选择 53

6.1实践中的熵计算 53

6.1.1等效性证明 55

6.1.2关于零值的说明 56

6.2其他属性选择标准：多样性基尼指数 56

6.3x2属性选择准则 57

6.4归纳偏好 60

6.5使用增益比进行属性选择 61

6.5.1分裂信息的属性 62

6.5.2总结 63

6.6不同属性选择标准生成的规则数 63

6.7缺失分支 64

6.8本章小结 65

6.9自我评估练习 65

第7章估计分类器的预测精度 67

7.1简介 67

7.2方法1：将数据划分为训练集和测试集 68

7.2.1标准误差 68

7.2.2重复训练和测试 69

7.3方法2： k-折交叉验证 70

7.4方法3： N-折交叉验证 70

7.5实验结果Ⅰ 71

7.6实验结果Ⅱ：包含缺失值的数据集 73

7.6.1策略1：丢弃实例 73

7.6.2策略2：用最频繁值/平均值替换 74

7.6.3类别缺失 75

7.7混淆矩阵 75

7.8本章小结 77

7.9自我评估练习 77

第8章连续属性 79

8.1简介 79

8.2局部与全局离散化 81

8.3向TDIDT添加局部离散化 81

8.3.1计算一组伪属性的信息增益 82

8.3.2计算效率 86

8.4使用ChiMerge算法进行全局离散化 88

8.4.1计算期望值和x2 90

8.4.2查找阈值 94

8.4.3设置minIntervals和maxIntervals 95

8.4.4 ChiMerge算法：总结 96

8.4.5对ChiMerge算法的评述 96

8.5比较树归纳法的全局离散化和局部离散化 97

8.6本章小结 98

8.7自我评估练习 98

第9章避免决策树的过度拟合 99

9.1处理训练集中的冲突 99

9.2关于过度拟合数据的更多规则 103

9.3预剪枝决策树 104

9.4后剪枝决策树 106

9.5本章小结 111

9.6自我评估练习 111

第10章关于熵的更多信息 113

10.1简介 113

10.2使用位的编码信息 116

10.3区分值 117

10.4对“非等可能”的值进行编码 118

10.5训练集的熵 121

10.6信息增益必须为正数或零 122

10.7使用信息增益来简化分类任务的特征 123

10.7.1示例1：genetics数据集 124

10.7.2示例2： bcst96数据集 126

10.8本章小结 128

10.9自我评估练习 128

第11章归纳分类的模块化规则 129

11.1规则后剪枝 129

11.2冲突解决 130

11.3决策树的问题 133

11.4 Prism算法 135

11.4.1基本Prism算法的变化 141

11.4.2将Prism算法与TDIDT算法进行比较 142

11.5本章小结 143

11.6自我评估练习 143

第12章度量分类器的性能 145

12.1真假正例和真假负例 146

12.2性能度量 147

12.3真假正例率与预测精度 150

12.4 ROC图 151

12.5 ROC曲线 153

12.6寻找最佳分类器 153

12.7本章小结 155

12.8自我评估练习 155

第13章处理大量数据 157

13.1简介 157

13.2将数据分发到多个处理器 159

13.3案例研究：PMCRI 161

13.4评估分布式系统PMCRI的有效性 163

13.5逐步修改分类器 167

13.6本章小结 171

13.7自我评估练习 171

第14章集成分类 173

14.1简介 173

14.2估计分类器的性能 175

14.3为每个分类器选择不同的训练集 176

14.4为每个分类器选择一组不同的属性 177

14.5组合分类：替代投票系统 177

14.6并行集成分类器 180

14.7本章小结 181

14.8 自我评估练习 181

第15章比较分类器 183

15.1简介 183

15.2配对t检验 184

15.3为比较评估选择数据集 189

15.4抽样 191

15.5“无显著差异”的结果有多糟糕？ 193

15.6本章小结 194

15.7自我评估练习 194

第16章关联规则挖掘Ⅰ 195

16.1简介 195

16.2规则兴趣度的衡量标准 196

16.2.1 Piatetsky-Shapiro标准和RI度量 198

16.2.2规则兴趣度度量应用于chess数据集 200

16.2.3使用规则兴趣度度量来解决冲突 201

16.3关联规则挖掘任务 202

16.4找到最佳N条规则 202

16.4.1 J-Measure：度量规则的信息内容 203

16.4.2搜索策略 204

16.5本章小结 207

16.6自我评估练习 207

第17章关联规则挖掘Ⅱ 209

17.1简介 209

17.2事务和项目集 209

17.3对项目集的支持 211

17.4关联规则 211

17.5生成关联规则 213

17.6 Apriori 214

17.7生成支持项目集：一个示例 217

17.8为支持项目集生成规则 219

17.9规则兴趣度度量：提升度和杠杆率 220

17.10本章小结 222

17.11自我评估练习 222

第18章关联规则挖掘Ⅲ：频繁模式树 225

18.1简介：FP-growth 225

18.2构造FP-tree 227

18.2.1预处理事务数据库 227

18.2.2初始化 229

18.2.3处理事务1：f，c， a，m， p 230

18.2.4处理事务2：f，c， a，b， m 231

18.2.5处理事务3：f，b 235

18.2.6处理事务4： c， b，p 236

18.2.7处理事务5：f，c， a，m，p 236

18.3从FP-tree中查找频繁项目集 238

18.3.1以项目p结尾的项目集 240

18.3.2以项目m结尾的项目集 248

18.4本章小结 254

18.5自我评估练习 254

第19章聚类 255

19.1简介 255

19.2 k-means聚类 257

19.2.1示例 258

19.2.2找到最佳簇集 262

19.3凝聚式层次聚类 263

19.3.1记录簇间距离 265

19.3.2终止聚类过程 268

19.4本章小结 268

19.5自我评估练习 268

第20章文本挖掘 269

20.1多重分类 269

20.2表示数据挖掘的文本文档 270

20.3停用词和词干 271

20.4使用信息增益来减少特征 272

20.5表示文本文档：构建向量空间模型 272

20.6规范权重 273

20.7测量两个向量之间的距离 274

20.8度量文本分类器的性能 275

20.9超文本分类 275

20.9.1对网页进行分类 276

20.9.2超文本分类与文本分类 277

20.10本章小结 279

20.11自我评估练习 280

第21章分类流数据 281

21.1简介 281

21.2构建H-Tree：更新数组 283

21.2.1 currentAtts数组 284

21.2.2 splitAtt数组 284

21.2.3将记录排序到适当的叶节点 284

21.2.4 hitcount数组 285

21.2.5 classtotals数组 285

21.2.6 acvCounts阵列 285

21.2.7 branch数组 286

21.3构建H-Tree：详细示例 287

21.3.1步骤1：初始化根节点0 287

21.3.2步骤2：开始读取记录 287

21.3.3步骤3：考虑在节点0处分裂 288

21.3.4步骤4：在根节点上拆分并初始化新的叶节点 289

21.3.5步骤5：处理下一组记录 290

21.3.6步骤6：考虑在节点2处分裂 292

21.3.7步骤7：处理下一组记录 292

21.3.8 H-Tree算法概述 293

21.4分裂属性：使用信息增益 295

21.5分裂属性：使用Hoeffding边界 297

21.6 H-Tree算法：最终版本 300

21.7使用不断进化的H-Tree进行预测 302

21.8实验：H-Tree与TDIDT 304

21.8.1 lens24数据集 304

21.8.2 vote数据集 306

21.9本章小结 307

21.10自我评估练习 307

第22章分类流数据Ⅱ：时间相关数据 309

22.1平稳数据与时间相关数据 309

22.2 H -Tree算法总结 311

22.2.1 currentAtts数组 312

22.2.2 splitAtt数组 312

22.2.3 hitcount数组 312

22.2.4 classtotals数组 312

22.2.5 acvCounts数组 313

22.2.6 branch数组 313

22.2.7 H-Tree算法的伪代码 313

22.3从H-Tree到CDH-Tree：概述 315

22.4从H-Tree转换到CDH-Tree：递增计数 315

22.5滑动窗口法 316

22.6在节点处重新分裂 320

22.7识别可疑节点 320

22.8创建备用节点 322

22.9成长/遗忘备用节点及其后代 325

22.10用备用节点替换一个内部节点 327

22.11实验：跟踪概念漂移 333

22.11.1 lens24数据：替代模式 335

22.11.2引入概念漂移 335

22.11.3使用交替lens24数据的实验 336

22.11.4关于实验的评论 343

22.12本章小结 343

22.13自我评估练习 343

附录A基本数学知识 345

附录B数据集 357

附录C更多信息来源 371

附录D词汇表和符号 373

附录E自我评估练习题答案 391

参考文献 419

查看更多关于的内容

数据挖掘原理PDF电子书下载