书籍 大数据智能分析的封面

大数据智能分析PDF电子书下载

(中国)张华平,商建云,刘兆友

购买点数

12

出版社

北京:清华大学出版社

出版时间

2019

ISBN

标注页数

315 页

PDF页数

328 页

图书目录

第1章 大数据智能概述 1

1.1 数据的智能演化过程 1

1.2 大数据 2

1.2.1 大数据的概念 2

1.2.2 大数据的特征 2

1.2.3 大数据带来的决策方式的革命 3

1.2.4 大数据面临的挑战及其对应的技术概览 5

1.2.5 科学的大数据观 9

1.2.6 大数据架构下的人才需求及产业结构 10

1.3 人工智能 12

1.4 自然语言处理 14

第2章 大数据技术平台与架构 16

2.1 大数据技术概览 16

2.1.1 大数据技术架构 16

2.1.2 云计算 17

2.2 Hadoop、Spark生态系统 20

2.2.1 Hadoop生态系统 20

2.2.2 Spark生态系统 26

2.2.3 Spark和Hadoop的性能对比 31

2.3 大数据挖掘与可视化工具 34

第3章 传统机器学习与数据挖掘 40

3.1 机器学习介绍 40

3.2 关联规则挖掘 41

3.2.1 Apriori算法 43

3.2.2 FP-growth算法 43

3.3 分类 45

3.3.1 SVM 45

3.3.2 决策树 52

3.3.3 朴素贝叶斯 56

3.3.4 K近邻 59

3.4 聚类 60

3.4.1 基于划分的聚类方法 60

3.4.2 基于层次的聚类方法 65

3.4.3 基于密度的聚类方法 71

3.4.4 聚类案例:用户细分模型 74

3.5 数据挖掘相关工具 74

3.5.1 数据获取工具 75

3.5.2 分词工具 77

3.5.3 分类聚类工具 79

3.5.4 Python调用方法 79

第4章 经典深度学习算法与平台 81

4.1 神经网络基础 82

4.1.1 神经元 82

4.1.2 从神经元到神经网络 82

4.2 循环神经网络 84

4.2.1 RNN基本概念 84

4.2.2 RNN的长期依赖问题与LSTM 85

4.2.3 深度RNN和双向RNN 88

4.3 卷积神经网络 89

4.4 序列到序列模型 90

4.5 注意力模型 91

4.6 生成对抗网络 93

4.7 TensorFlow计算图框架 95

4.7.1 数据流图 95

4.7.2 TensorFlow的特征 95

4.7.3 官方入门教程 96

4.8 PyTorch深度学习框架 103

4.8.1 PyTorch是什么 103

4.8.2 自动求导:自动微分 104

4.8.3 神经网络 105

第5章 信息检索与大数据搜索 110

5.1 概述 110

5.2 JZSearch大数据搜索引擎系统架构 110

5.3 大数据精准搜索的基本技术 112

5.3.1 索引字段类型 112

5.3.2 索引词项的设计 113

5.3.3 索引压缩技术 113

5.3.4 内存交换 115

5.3.5 增量索引 116

5.3.6 数据库检索 117

5.4 大数据精准搜索语法 118

5.4.1 JZSearch排序算法 118

5.4.2 JZSearch结果格式 119

5.4.3 JZSearch检索语法说明 119

5.5 JZSearch大数据精准搜索应用案例 123

5.5.1 中国邮政集团邮址垂直搜索 124

5.5.2 标准文档搜索引擎 124

5.5.3 内网文档的知识搜索门户 125

5.5.4 商品比价搜索 125

5.5.5 维吾尔文搜索 125

第6章 汉语分词 127

6.1 概述 127

6.2 汉语分词的困难性 129

6.3 基于机械匹配的汉语分词算法 132

6.3.1 词典匹配法 132

6.3.2 N-最短路径法 136

6.4 基于统计语言模型的汉语分词算法 137

6.4.1 N元语言模型 138

6.4.2 互信息模型 138

6.4.3 最大熵模型 140

6.5 NLPIR-ICTCLAS:基于层叠隐马尔可夫模型的汉语分词算法 141

6.5.1 层次隐马尔可夫模型 141

6.5.2 基于类的隐马尔可夫分词算法 143

6.5.3 N-最短路径的切分排歧策略 145

6.6 基于双向循环神经网络与条件随机场的词法分析 146

6.6.1 概述 146

6.6.2 基于双向循环神经网络的序列标注 146

6.6.3 融合条件随机场的深度神经网络模型 148

6.7 实验与分析 149

6.7.1 评估方法 149

6.7.2 实验分析1 149

6.7.3 实验分析2 153

第7章 命名实体识别 157

7.1 命名实体识别定义 157

7.2 命名实体识别的研究主体 158

7.3 命名实体识别的特点及难点 158

7.4 命名实体识别的研究技术路径 159

7.5 基于角色标注的命名实体识别 159

7.6 实验与分析 162

第8章 新词发现 163

8.1 基于规则的研究方法 164

8.1.1 规则抽取方法 165

8.1.2 规则过滤方法 165

8.2 基于统计模型的研究方法 166

8.2.1 凝固度 166

8.2.2 信息熵 166

8.2.3 新词IDF 167

8.3 面向社会媒体的开放领域新词发现 167

8.3.1 引言 167

8.3.2 新词发现 168

8.3.3 实验 171

第9章 文本分类与聚类 175

9.1 文本预处理 175

9.2 文本表示模型 176

9.2.1 传统布尔检索与扩展布尔检索模型 177

9.2.2 向量空间模型 177

9.2.3 概率检索模型 180

9.2.4 语言模型 181

9.3 文本特征选择方法 182

9.3.1 信息增量 183

9.3.2 卡方统计 183

9.3.3 交叉熵 183

9.4 文本分类概述 184

9.5 文本聚类概述 187

9.5.1 聚类算法体系 187

9.5.2 半监督聚类 188

第10章 话题发现算法 191

10.1 多语语义串自动发现 195

10.2 多语语义关键特征挖掘 197

10.2.1 关键特征抽取 197

10.2.2 单个文档Top N关键特征挖掘 198

10.3 Top N热点话题发现和关联归并 198

10.3.1 Top N热点话题发现 198

10.3.2 话题归并 200

10.4 多语文本话题发现与关联归类实验验证 201

第11章 情感分析 203

11.1 概述 203

11.2 情感分类 205

11.3 应用 208

11.3.1 用户评论分析与决策 208

11.3.2 舆情监控 208

11.3.3 信息预测 209

11.4 情感词发现与极性权重自动计算算法 209

11.4.1 引言 209

11.4.2 情感词典构建模型 211

11.4.3 实验 213

11.5 基于树模型的无监督情感分析系统 216

11.5.1 实现方法 216

11.5.2 系统架构及流程 217

11.5.3 实验分析及结论 219

11.6 基于深度神经网络的短文本情感倾向性分析 221

11.6.1 语料库建设 221

11.6.2 词袋模型与文本建模 223

11.6.3 基于Softmax和深度神经网络的短文本情感分析算法 225

11.6.4 实验设计及实验结果 229

第12章 自动摘要 234

12.1 概述 234

12.2 基于关键词提取的自动摘要 238

12.3 面向主题的自动摘要 244

12.4 基于主题模型与信息熵的中文文档自动摘要技术研究 247

12.4.1 主题模型 248

12.4.2 信息熵 250

12.4.3 句子信息熵的计算方法 250

12.4.4 算法介绍 250

12.4.5 实验结果 251

12.5 自动摘要应用场景分析及大数据搜索与挖掘软件应用示例 252

第13章 大数据智能应用案例 254

13.1 公安警情大数据挖掘 254

13.2 网络赌博信息文本挖掘 257

13.2.1 Web网页信息选择与提取 257

13.2.2 中文分词及词性标注处理 258

13.2.3 特征提取 259

13.2.4 基于网络赌博信息的数据挖掘 260

13.2.5 网络赌博信息可视化展示 262

13.3 领导人支持信息挖掘 265

13.4 微博博主的特征与行为大数据挖掘 268

13.4.1 介绍 268

13.4.2 宏观特征大数据挖掘 270

13.4.3 实验与分析 275

13.4.4 微博博主的价值观自动评估方法 275

13.5 看图说话:基于Mask-RCNN的图片中文描述生成器 277

13.5.1 自下而上的注意力机制在图像描述中的应用 278

13.5.2 Bottom-Up-Attention和Top-Down-Attention图像描述模型 280

13.5.3 Dense-Attention图像描述模型 281

13.5.4 基于语义控制的长短时记忆模型 281

13.5.5 模型训练相关说明及结果分析 283

13.5.6 模型测试相关说明及结果分析 284

13.5.7 测试结果分析 286

第14章 大数据智能课程经典作业汇编 288

14.1 《红楼梦》前后作者同一性分析 288

14.2 党的十九大报告语义智能分析 293

14.3 文章风格对比:方文山与汪峰 294

14.4 智慧旅游大数据应用 295

14.5 某大厦电力数据挖掘 298

14.6 杭州市二手房房价分析 301

14.6.1 概述 301

14.6.2 房价分析系统案例介绍 301

14.6.3 本例设计与实现 304

14.7 数据挖掘在股票分析预测中的应用 306

14.7.1 概述 306

14.7.2 股票分析预测方法 307

14.7.3 神经网络在股票分析预测应用中的研究现状 307

14.7.4 实验结果 309

14.8 基于TensorFlow的歌词自动生成 310

14.8.1 算法说明 310

14.8.2 实验结果 311

14.9 基于LSTM的购物评论分类 312

14.9.1 获取语料库比分词 312

14.9.2 词向量的转换 313

14.9.3 建立向量和单词列表 313

14.9.4 将句子转换成序号矩阵 314

14.9.5 模型训练 314

查看更多关于的内容

本类热门
在线购买PDF电子书
下载此书RAR压缩包