1 概述 1
1.1 文本数据 1
1.2 文本挖掘与分析 2
1.3 小结 5
2 数据获取及预处理 6
2.1 数据获取 6
2.2 数据清洗 19
2.3 数据预处理 20
2.4 N元语法模型 31
2.5 小结 32
3 文本向量化 33
3.1 向量空间模型 33
3.2 分布文本表示模型 37
3.3 句子向量化 55
3.4 文档向量化 59
3.5 小结 66
4 文本分类 67
4.1 文本分类基础 67
4.2 传统文本分类算法 73
4.3 深度神经网络方法 86
4.4 文本分类评价 109
4.5 小结 117
5 文本聚类 118
5.1 文本聚类基础 118
5.2 基于划分的聚类 120
5.3 基于层次的聚类 128
5.4 基于密度的聚类 137
5.5 谱聚类 141
5.6 文本聚类评价 150
5.7 小结 154
6 主题模型 155
6.1 潜在语义分析 155
6.2 非负矩阵分解(NMF) 162
6.3 概率潜在语义分析(PLSA) 166
6.4 潜在狄利克雷分布(LDA) 170
6.5 小结 185
7 文本数据可视化 186
7.1 文本内容可视化 186
7.2 文本主题可视化 193
7.3 基于时间信息的数据可视化 197
7.4 小结 202
参考文献 203