第1章 绪论 1
1.1基本概念 1
1.2文本挖掘任务 2
1.3文本挖掘面临的困难 5
1.4方法概述与本书的内容组织 7
1.5进一步阅读 9
第2章 数据预处理和标注 11
2.1数据获取 11
2.2数据预处理 15
2.3数据标注 17
2.4基本工具 19
2.4.1汉语自动分词与词性标注 19
2.4.2句法分析 20
2.4.3n元语法模型 21
2.5进一步阅读 22
第3章 文本表示 23
3.1向量空间模型 23
3.1.1向量空间模型的基本概念 23
3.1.2特征项的构造与权重 24
3.1.3文本长度规范化 25
3.1.4特征工程 26
3.1.5其他文本表示方法 27
3.2词的分布式表示 29
3.2.1神经网络语言模型 29
3.2.2C&W模型 32
3.2.3CBOW与Skip-gram模型 34
3.2.4噪声对比估计与负采样 35
3.2.5字词混合的分布式表示方法 37
3.3短语的分布式表示 38
3.3.1基于词袋的分布式表示 39
3.3.2基于自动编码器的分布式表示 39
3.4句子的分布式表示 42
3.4.1通用的句子表示 42
3.4.2任务相关的句子表示 45
3.5文档的分布式表示 48
3.5.1通用的文档分布式表示 48
3.5.2任务相关的文档分布式表示 49
3.6进一步阅读 52
第4章 文本分类 53
4.1概述 53
4.2传统文本表示 54
4.3特征选择 55
4.3.1互信息法 55
4.3.2信息增益法 58
4.3.3卡方统计量法 59
4.3.4其他方法 60
4.4传统分类算法 61
4.4.1朴素贝叶斯模型 61
4.4.2Logistic回归、Softmax回归与最大熵模型 63
4.4.3支持向量机 65
4.4.4集成学习 67
4.5深度神经网络方法 68
4.5.1多层前馈神经网络 68
4.5.2卷积神经网络 69
4.5.3循环神经网络 71
4.6文本分类性能评估 78
4.7进一步阅读 81
第5章 文本聚类 83
5.1概述 83
5.2文本相似性度量 83
5.2.1样本间的相似性 83
5.2.2簇间的相似性 86
5.2.3样本与簇之间的相似性 87
5.3文本聚类算法 87
5.3.1K-均值聚类 87
5.3.2单遍聚类 91
5.3.3层次聚类 92
5.3.4密度聚类 95
5.4性能评估 97
5.4.1外部标准 97
5.4.2内部标准 99
5.5进一步阅读 99
第6章 主题模型 101
6.1概述 101
6.2潜在语义分析 102
6.2.1奇异值分解 102
6.2.2词项-文档矩阵的奇异值分解 103
6.2.3词项和文档的概念表示及相似度计算 104
6.3概率潜在语义分析 106
6.3.1模型假设 106
6.3.2参数学习 107
6.4潜在狄利克雷分布 108
6.4.1模型假设 108
6.4.2词项和主题序列的联合概率 110
6.4.3模型推断 112
6.4.4新文档的推断 114
6.4.5PLSA与LDA的联系与区别 115
6.5进一步阅读 115
第7章 情感分析与观点挖掘 117
7.1概述 117
7.2情感分析任务类型 118
7.2.1按目标形式划分 118
7.2.2按分析粒度划分 119
7.3文档或句子级情感分析方法 121
7.3.1基于规则的无监督情感分类 122
7.3.2基于传统机器学习的监督情感分类 123
7.3.3深度神经网络方法 126
7.4词语级情感分析与情感词典构建 131
7.4.1基于语义知识库的方法 131
7.4.2基于语料库的方法 131
7.4.3情感词典性能评估 134
7.5属性级情感分析 134
7.5.1属性抽取 135
7.5.2属性情感分类 138
7.5.3主题与情感的生成式建模 141
7.6情感分析中的特殊问题 143
7.6.1情感极性转移问题 143
7.6.2领域适应问题 145
7.7进一步阅读 147
第8章 话题检测与跟踪 149
8.1概述 149
8.2术语与任务 151
8.2.1术语 151
8.2.2任务 152
8.3报道或话题的表示与相似性计算 154
8.4话题检测 156
8.4.1话题在线检测 157
8.4.2话题回溯检测 158
8.5话题跟踪 159
8.6评估方法 160
8.7社交媒体话题检测与跟踪 161
8.7.1社交媒体话题检测 162
8.7.2社交媒体话题跟踪 163
8.8突发话题检测 163
8.8.1突发状态识别 164
8.8.2以文档为中心的方法:先检测话题后评估突发性 167
8.8.3以特征为中心的方法:先识别突发特征后生成突发话题 168
8.9进一步阅读 169
第9章 信息抽取 171
9.1概述 171
9.2命名实体识别 173
9.2.1基于规则的命名实体识别方法 174
9.2.2有监督的命名实体识别方法 175
9.2.3半监督的命名实体识别方法 181
9.2.4命名实体识别方法评价 183
9.3共指消解 184
9.3.1基于规则的共指消解方法 185
9.3.2数据驱动的共指消解方法 187
9.3.3共指消解评价 190
9.4实体消歧 193
9.4.1基于聚类的实体消歧方法 193
9.4.2基于链接的实体消歧 197
9.4.3实体消歧任务的评价方法 203
9.5关系抽取 204
9.5.1基于离散特征的关系分类方法 206
9.5.2基于分布式特征的关系分类方法 212
9.5.3基于远程监督的关系分类方法 214
9.5.4关系分类性能评价 215
9.6事件抽取 215
9.6.1事件描述模板 215
9.6.2事件抽取方法 217
9.6.3事件抽取评价 224
9.7进一步阅读 224
第10章 文本自动摘要 227
10.1概述 227
10.2抽取式自动摘要 228
10.2.1句子重要性评估 229
10.2.2基于约束的摘要生成方法 237
10.3压缩式自动摘要方法 238
10.3.1句子压缩方法 238
10.3.2基于句子压缩的自动摘要方法 242
10.4生成式自动摘要 244
10.4.1基于信息融合的生成式摘要方法 244
10.4.2基于编码-解码的生成式摘要方法 249
10.5基于查询的自动摘要 251
10.5.1基于语言模型的相关性计算方法 251
10.5.2基于关键词语重合度的相关性计算方法 252
10.5.3基于图模型的相关性计算方法 252
10.6跨语言和多语言自动摘要方法 253
10.6.1跨语言自动摘要 253
10.6.2多语言自动摘要 256
10.7摘要质量评估方法和相关评测 258
10.7.1摘要质量评估方法 258
10.7.2相关评测活动 262
10.8进一步阅读 263
参考文献 265
名词术语索引 285