大数据原理与实践pdf电子书下载

书籍介绍

查看更多关于的内容

图书目录

第1章引言 1

1.1 大数据的定义 1

1.2 大数据与小数据 2

1.3 大数据在哪里 5

1.4 大数据最常见的目的是产生小数据 6

1.5 大数据是研究领域的中心话题 6

术语表 7

参考文献 11

第2章为非结构化数据提供结构 13

2.1 几乎所有数据都是非结构化的、不可用的原始形式 13

2.2 词汇索引 14

2.3 术语提取 16

2.4 构建索引 19

2.5 自动编码 20

2.6 案例研究：宇宙中任意原子精确位置的快速定位（需要安装一些软件） 24

2.7 案例研究（高级）：一个完整的自动编码器（12行Python代码） 26

2.8 案例研究：以词汇索引进行文本转换 28

2.9 案例研究（高级）：Burrows Wheeler变换 30

术语表 32

参考文献 43

第3章标识、去标识和重标识 45

3.1 什么是标识符 45

3.2 标识符和标识系统之间的区别 46

3.3 生成唯一标识符 48

3.4 糟糕的标识方法 50

3.5 注册唯一对象标识符 53

3.6 去标识和重标识 55

3.7 案例研究：数据清理 57

3.8 案例研究（高级）：图像标题中的标识符 59

3.9 案例研究：单向散列函数 61

术语表 63

参考文献 69

第4章元数据、语义和三元组 71

4.1 元数据 71

4.2 可扩展标记语言 71

4.3 语义和三元组 72

4.4 命名空间 74

4.5 案例研究：三元组的语法 75

4.6 案例研究：Dublin Core 77

术语表 78

参考文献 80

第5章分类和本体论 81

5.1 关于对象关系的全部 81

5.2 分类：最简单的本体 84

5.3 本体：有多个父类的类 86

5.4 分类模型选择 88

5.5 类混合 91

5.6 本体开发的常见陷阱 92

5.7 案例研究：上层本体 93

5.8 案例研究（高级）：悖论 94

5.9 案例研究（高级）：RDF框架和类属性 96

5.10 案例研究（高级）：可视化类关系 98

术语表 102

参考文献 111

第6章内省 113

6.1 自我认知 113

6.2 数据对象：每个大数据集合中最基本的元素 116

6.3 大数据如何使用内省 117

6.4 案例研究：时间戳数据 119

6.5 案例研究：TripleStore简介 121

6.6 案例研究（高级）：大数据必须是面向对象的证明 125

术语表 126

参考文献 127

第7章标准和数据集成 128

7.1 标准 128

7.2 规范与标准 132

7.3 版本控制 134

7.4 合规问题 135

7.5 案例研究：标准化巧克力茶壶 135

术语表 136

参考文献 137

第8章不变性和永久性 139

8.1 数据不变性的重要性 139

8.2 不变性和标识符 140

8.3 数据产生数据 142

8.4 跨机构协调标识符 143

8.5 案例研究：可信时间戳 144

8.6 案例研究：区块链和分布式账本 145

8.7 案例研究（高级）：零知识协调 147

术语表 148

参考文献 150

第9章评估大数据资源的充分性 152

9.1 观察数据 152

9.2 大数据的最小必要属性 158

9.3 附加条件的数据 161

9.4 案例研究：用于查看和搜索大型文件的实用程序 162

9.5 案例研究：数据扁平化 164

术语表 164

参考文献 169

第10章测量 170

10.1 准确性与精度 170

10.2 数据范围 171

10.3 计数 173

10.4 数据标准化和变换 176

10.5 约简数据 179

10.6 理解控制 181

10.7 没有实际意义的统计意义 182

10.8 案例研究：基因计数 183

10.9 案例研究：早期生物特征和狭窄数据范围的意义 184

术语表 185

参考文献 186

第11章快速简单的大数据分析必不可少的技巧 188

11.1 速度和可扩展性 188

11.2 适用于大数据的快速操作，并且每台计算机都支持 193

11.3 点积——一种简单快速的相关方法 197

11.4 聚类 199

11.5 数据持久性方法（不使用数据库） 201

11.6 案例研究：爬升分类 202

11.7 案例研究（高级）：数据库示例 203

11.8 案例研究（高级）：NoSQL 205

术语表 205

参考文献 209

第12章寻找大型数据集中的线索 211

12.1 分母 211

12.2 词频分布 212

12.3 异常值和异常 215

12.4 封底分析 216

12.5 案例研究：预测用户偏好 218

12.6 案例研究：人口数据的多模态 219

12.7 案例研究：大小黑洞 220

术语表 220

参考文献 224

第13章使用随机数将大数据分析问题的规模缩小 225

13.1 （伪）随机数的显著效用 225

13.2 重采样 230

13.3 蒙特卡罗模拟法 234

13.4 案例研究：中心极限定理的证明 236

13.5 案例研究：发生一连串小概率事件的频率 237

13.6 案例研究：臭名昭著的生日问题 238

13.7 案例研究（高级）：蒙提霍尔问题 239

13.8 案例研究（高级）：贝叶斯分析 241

术语表 242

参考文献 244

第14章大数据分析中的特殊注意事项 246

14.1 数据搜索理论 246

14.2 理论搜索中的数据 247

14.3 巨大的偏差 248

14.4 大数据的数据子集：不可加和不传递 251

14.5 其他大数据陷阱 252

14.6 案例研究（高级）：维数灾难 254

术语表 257

参考文献 258

第15章大数据的失败以及如何避免 260

15.1 失败很常见 260

15.2 失败的标准 261

15.3 复杂性 264

15.4 逐步走进大数据分析 265

15.5 失败之后 272

15.6 案例研究：癌症生物医学信息学网格——遥远的桥 273

15.7 案例研究：高斯Copula函数 277

术语表 278

参考文献 280

第16章数据再分析：比分析更重要 283

16.1 第一次分析（几乎）总是错的 283

16.2 为什么再分析比分析更重要 285

16.3 案例研究：旧JADE对撞机数据的再分析 287

16.4 案例研究：通过再分析证明 287

16.5 案例研究：从旧数据中寻找新行星 288

术语表 289

参考文献 290

第17章大数据再利用 294

17.1 什么是数据再利用 294

17.2 暗数据、废弃数据和遗留数据 296

17.3 案例研究：从邮政编码到人口统计学基础 297

17.4 案例研究：基因序列数据库的科学推断 298

17.5 案例研究：将全球变暖与高强度飓风联系起来 298

17.6 案例研究：用地质数据推断气候趋势 299

17.7 案例研究：环月影像恢复工程 299

术语表 301

参考文献 301

第18章数据共享和数据安全 303

18.1 什么是数据共享，为什么我们不共享更多数据 303

18.2 常见的不满 303

18.3 数据安全和加密协议 308

18.4 案例研究：火星上的生命 313

18.5 案例研究：个人标识符 314

术语表 315

参考文献 317

第19章合法性 320

19.1 对数据的准确性和合法性负责 320

19.2 创建、使用和共享资源的权利 322

19.3 因使用标准而招致的版权和专利侵权行为 324

19.4 对个人的保护 325

19.5 许可问题 326

19.6 未经许可的数据 330

19.7 隐私策略 332

19.8 案例研究：大数据的时效性 333

19.9 案例：哈瓦苏派的故事 334

术语表 335

参考文献 336

第20章社会问题 338

20.1 公众的大数据感知 338

20.2 用大数据降低成本和提高生产效率 340

20.3 公众的疑虑 342

20.4 从自己做起 343

20.5 谁是大数据 344

20.6 傲慢和夸张 349

20.7 案例研究：公民科学家 351

20.8 案例研究：乔治·奥威尔的《1984》 354

术语表 354

参考文献 355

查看更多关于的内容

大数据原理与实践PDF电子书下载