书籍 自然语言处理入门的封面

自然语言处理入门PDF电子书下载

何晗

购买点数

13

出版社

北京:人民邮电出版社

出版时间

2019

ISBN

标注页数

368 页

PDF页数

389 页

图书目录

第1章 新手上路 1

1.1自然语言与编程语言 2

1.1.1词汇量 2

1.1.2结构化 2

1.1.3歧义性 3

1.1.4容错性 3

1.1.5易变性 4

1.1.6简略性 4

1.2自然语言处理的层次 4

1.2.1语音、图像和文本 5

1.2.2中文分词、词性标注和命名实体识别 5

1.2.3信息抽取 6

1.2.4文本分类与文本聚类 6

1.2.5句法分析 6

1.2.6语义分析与篇章分析 7

1.2.7其他高级任务 7

1.3自然语言处理的流派 8

1.3.1基于规则的专家系统 8

1.3.2基于统计的学习方法 9

1.3.3历史 9

1.3.4规则与统计 11

1.3.5传统方法与深度学习 11

1.4机器学习 12

1.4.1什么是机器学习 13

1.4.2模型 13

1.4.3特征 13

1.4.4数据集 15

1.4.5监督学习 16

1.4.6无监督学习 17

1.4.7其他类型的机器学习算法 18

1.5语料库 19

1.5.1中文分词语料库 19

1.5.2词性标注语料库 19

1.5.3命名实体识别语料库 20

1.5.4句法分析语料库 20

1.5.5文本分类语料库 20

1.5.6语料库建设 21

1.6开源工具 21

1.6.1主流NLP工具比较 21

1.6.2Python接口 23

1.6.3 Java接口 28

1.7总结 31

第2章 词典分词 32

2.1什么是词 32

2.1.1词的定义 32

2.1.2词的性质——齐夫定律 33

2.2词典 34

2.2.1 HanLP词典 34

2.2.2词典的加载 34

2.3切分算法 36

2.3.1完全切分 36

2.3.2正向最长匹配 37

2.3.3逆向最长匹配 39

2.3.4双向最长匹配 40

2.3.5速度评测 43

2.4字典树 46

2.4.1什么是字典树 46

2.4.2字典树的节点实现 47

2.4.3字典树的增删改查实现 48

2.4.4首字散列其余二分的字典树 50

2.4.5前缀树的妙用 53

2.5双数组字典树 55

2.5.1双数组的定义 55

2.5.2状态转移 56

2.5.3查询 56

2.5.4构造 57

2.5.5全切分与最长匹配 60

2.6 AC自动机 60

2.6.1从字典树到AC自动机 61

2.6.2 goto表 61

2.6.3 output表 62

2.6.4 fail表 63

2.6.5实现 65

2.7基于双数组字典树的AC自动机 67

2.7.1原理 67

2.7.2实现 67

2.8 HanLP的词典分词实现 71

2.8.1 DoubleArrayTrieSegment 72

2.8.2 AhoCorasickDoubleArrayTrie-Segment 73

2.9准确率评测 74

2.9.1准确率 74

2.9.2混淆矩阵与TP/FN/FP/TN 75

2.9.3精确率 76

2.9.4召回率 76

2.9.5F1值 77

2.9.6中文分词中的P、R、F1计算 77

2.9.7实现 78

2.9.8第二届国际中文分词评测 79

2.9.9 OOV Recall Rate与IV Recall Rate 81

2.10字典树的其他应用 83

2.10.1停用词过滤 83

2.10.2简繁转换 87

2.10.3拼音转换 90

2.11总结 91

第3章 二元语法与中文分词 92

3.1语言模型 92

3.1.1什么是语言模型 92

3.1.2马尔可夫链与二元语法 94

3.1.3 n元语法 95

3.1.4数据稀疏与平滑策略 96

3.2中文分词语料库 96

3.2.1 1998年《人民日报》语料库PKU 97

3.2.2微软亚洲研究院语料库MSR 98

3.2.3繁体中文分词语料库 98

3.2.4语料库统计 99

3.3训练 100

3.3.1加载语料库 101

3.3.2统计一元语法 101

3.3.3统计二元语法 103

3.4预测 104

3.4.1加载模型 104

3.4.2构建词网 107

3.4.3节点间的距离计算 111

3.4.4词图上的维特比算法 112

3.4.5与用户词典的集成 115

3.5评测 118

3.5.1标准化评测 118

3.5.2误差分析 118

3.5.3调整模型 119

3.6日语分词 122

3.6.1日语分词语料 122

3.6.2训练日语分词器 123

3.7总结 124

第4章 隐马尔可夫模型与序列标注 125

4.1序列标注问题 125

4.1.1序列标注与中文分词 126

4.1.2序列标注与词性标注 127

4.1.3序列标注与命名实体识别 128

4.2隐马尔可夫模型 129

4.2.1从马尔可夫假设到隐马尔可夫模型 129

4.2.2初始状态概率向量 130

4.2.3状态转移概率矩阵 131

4.2.4发射概率矩阵 132

4.2.5隐马尔可夫模型的三个基本用法 133

4.3隐马尔可夫模型的样本生成 133

4.3.1案例——医疗诊断 133

4.3.2样本生成算法 136

4.4隐马尔可夫模型的训练 138

4.4.1转移概率矩阵的估计 138

4.4.2初始状态概率向量的估计 139

4.4.3发射概率矩阵的估计 140

4.4.4验证样本生成与模型训练 141

4.5隐马尔可夫模型的预测 142

4.5.1概率计算的前向算法 142

4.5.2搜索状态序列的维特比算法 143

4.6隐马尔可夫模型应用于中文分词 147

4.6.1标注集 148

4.6.2字符映射 149

4.6.3语料转换 150

4.6.4训练 151

4.6.5预测 152

4.6.6评测 153

4.6.7误差分析 154

4.7二阶隐马尔可夫模型 154

4.7.1二阶转移概率张量的估计 155

4.7.2二阶隐马尔可夫模型中的维特比算法 156

4.7.3二阶隐马尔可夫模型应用于中文分词 158

4.8总结 159

第5章 感知机分类与序列标注 160

5.1分类问题 160

5.1.1定义 160

5.1.2应用 161

5.2线性分类模型与感知机算法 161

5.2.1特征向量与样本空间 162

5.2.2决策边界与分离超平面 164

5.2.3感知机算法 167

5.2.4损失函数与随机梯度下降 169

5.2.5投票感知机和平均感知机 171

5.3基于感知机的人名性别分类 174

5.3.1人名性别语料库 174

5.3.2特征提取 174

5.3.3训练 175

5.3.4预测 176

5.3.5评测 177

5.3.6模型调优 178

5.4结构化预测问题 180

5.4.1定义 180

5.4.2结构化预测与学习的流程 180

5.5线性模型的结构化感知机算法 180

5.5.1结构化感知机算法 180

5.5.2结构化感知机与序列标注 182

5.5.3结构化感知机的维特比解码算法 183

5.6基于结构化感知机的中文分词 186

5.6.1特征提取 187

5.6.2多线程训练 189

5.6.3特征裁剪与模型压缩 190

5.6.4创建感知机分词器 192

5.6.5准确率与性能 194

5.6.6模型调整与在线学习 195

5.6.7中文分词特征工程 197

5.7总结 199

第6章 条件随机场与序列标注 200

6.1机器学习的模型谱系 200

6.1.1生成式模型与判别式模型 201

6.1.2有向与无向概率图模型 202

6.2条件随机场 205

6.2.1线性链条件随机场 205

6.2.2条件随机场的训练 207

6.2.3对比结构化感知机 210

6.3条件随机场工具包 212

6.3.1 CRF++的安装 212

6.3.2 CRF++语料格式 213

6.3.3 CRF++特征模板 214

6.3.4 CRF++命令行训练 215

6.3.5 CRF++模型格式 216

6.3.6 CRF++命令行预测 217

6.3.7 CRF++代码分析 218

6.4 HanLP中的CRF++API 220

6.4.1训练分词器 220

6.4.2标准化评测 220

6.5总结 221

第7章 词性标注 222

7.1词性标注概述 222

7.1.1什么是词性 222

7.1.2词性的用处 223

7.1.3词性标注 223

7.1.4词性标注模型 223

7.2词性标注语料库与标注集 224

7.2.1《人民日报》语料库与PKU标注集 225

7.2.2国家语委语料库与863标注集 231

7.2.3《诛仙》语料库与CTB标注集 234

7.3序列标注模型应用于词性标注 236

7.3.1基于隐马尔可夫模型的词性标注 237

7.3.2基于感知机的词性标注 238

7.3.3基于条件随机场的词性标注 240

7.3.4词性标注评测 241

7.4自定义词性 242

7.4.1朴素实现 242

7.4.2标注语料 243

7.5总结 244

第8章 命名实体识别 245

8.1概述 245

8.1.1命名实体 245

8.1.2命名实体识别 245

8.2基于规则的命名实体识别 246

8.2.1基于规则的音译人名识别 247

8.2.2基于规则的日本人名识别 248

8.2.3基于规则的数词英文识别 249

8.3命名实体识别语料库 250

8.3.1 1998年《人民日报》语料库 250

8.3.2微软命名实体识别语料库 251

8.4基于层叠隐马尔可夫模型的角色标注框架 252

8.4.1基于角色标注的中国人名识别 252

8.4.2基于角色标注的地名识别 257

8.4.3基于角色标注的机构名识别 258

8.5基于序列标注的命名实体识别 260

8.5.1特征提取 261

8.5.2基于隐马尔可夫模型序列标注的命名实体识别 262

8.5.3基于感知机序列标注的命名实体识别 264

8.5.4基于条件随机场序列标注的命名实体识别 265

8.5.5命名实体识别标准化评测 265

8.6自定义领域命名实体识别 266

8.6.1标注领域命名实体识别语料库 267

8.6.2训练领域模型 267

8.7总结 268

第9章 信息抽取 270

9.1新词提取 270

9.1.1概述 270

9.1.2基本原理 270

9.1.3信息熵 271

9.1.4互信息 272

9.1.5实现 273

9.2关键词提取 276

9.2.1词频统计 277

9.2.2TF-IDF 278

9.2.3TextRank 280

9.3短语提取 283

9.4关键句提取 284

9.4.1 BM25 284

9.4.2TextRank 285

9.5总结 287

第10章 文本聚类 288

10.1概述 288

10.1.1聚类 288

10.1.2聚类的应用 290

10.1.3文本聚类 290

10.2文档的特征提取 291

10.2.1词袋模型 291

10.2.2词袋中的统计指标 293

10.3 k均值算法 293

10.3.1基本原理 294

10.3.2初始质心的选取 294

10.3.3更快的准则函数 297

10.3.4实现 298

10.4重复二分聚类算法 300

10.4.1基本原理 300

10.4.2自动判断聚类个数k 301

10.4.3实现 302

10.5标准化评测 303

10.5.1 P、R和F1值 303

10.5.2语料库 304

10.5.3评测试验 305

10.6总结 305

第11章 文本分类 306

11.1文本分类的概念 306

11.2文本分类语料库 307

11.3文本分类的特征提取 308

11.3.1分词 309

11.3.2卡方特征选择 309

11.3.3词袋向量 312

11.4朴素贝叶斯分类器 312

11.4.1朴素贝叶斯法原理 312

11.4.2朴素贝叶斯文本分类器实现 314

11.5支持向量机分类器 317

11.5.1线性支持向量机 317

11.5.2线性支持向量机文本分类器实现 319

11.6标准化评测 320

11.6.1评测指标P、R、F1 320

11.6.2试验结果 321

11.7情感分析 321

11.7.1 ChnSentiCorp情感分析语料库 322

11.7.2训练情感分析模型 322

11.7.3拓展试验 323

11.8总结 323

第12章 依存句法分析 324

12.1短语结构树 324

12.1.1上下文无关文法 324

12.1.2短语结构树 325

12.1.3宾州树库和中文树库 326

12.2依存句法树 327

12.2.1依存句法理论 327

12.2.2中文依存句法树库 328

12.2.3依存句法树的可视化 331

12.3依存句法分析 333

12.3.1基于图的依存句法分析 333

12.3.2基于转移的依存句法分析 333

12.4基于转移的依存句法分析 334

12.4.1 Arc-Eager转移系统 334

12.4.2特征提取 336

12.4.3 Static和Dynamic Oracle 337

12.4.4 Dynamic Oracle与感知机在线学习 338

12.4.5柱搜索 339

12.5依存句法分析API 340

12.5.1训练模型 340

12.5.2标准化评测 341

12.6案例:基于依存句法树的意见抽取 342

12.7总结 344

第13章 深度学习与自然语言处理 345

13.1传统方法的局限 345

13.1.1数据稀疏 345

13.1.2特征模板 347

13.1.3误差传播 348

13.2深度学习与优势 348

13.2.1深度学习 348

13.2.2用稠密向量解决数据稀疏 352

13.2.3用多层网络自动提取特征表示 352

13.2.4端到端的设计 353

13.3 word2vec 353

13.3.1语言学上的启发 354

13.3.2 CBOW模型 354

13.3.3训练词向量 355

13.3.4单词语义相似度 357

13.3.5词语类比 358

13.3.6短文本相似度 359

13.4基于神经网络的高性能依存句法分析器 360

13.4.1 Arc-Standard转移系统 360

13.4.2特征提取 361

13.4.3实现与接口 361

13.5自然语言处理进阶 363

自然语言处理学习资料推荐 365

查看更多关于的内容

上一篇:我是一个故事下一篇:商品经营实务
本类热门
在线购买PDF电子书
下载此书RAR压缩包