书籍 PySpark机器学习、自然语言处理与推荐系统的封面

PySpark机器学习、自然语言处理与推荐系统PDF电子书下载

(印)普拉莫德·辛格(PramodSingh)著

购买点数

20

出版社

出版时间

2020

ISBN

标注页数

0 页

PDF页数

173 页

图书目录

第1章 数据革命 1

1.1数据生成 1

1.2 Spark 2

1.2.1 Spark Core 3

1.2.2 Spark组件 4

1.3设置环境 5

1.3.1 Windows 5

1.3.2 iOS 6

1.4小结 7

第2章 机器学习简介 9

2.1有监督机器学习 10

2.2无监督机器学习 12

2.3半监督机器学习 14

2.4强化学习 14

2.5小结 15

第3章 数据处理 17

3.1加载和读取数据 17

3.2添加一个新列 20

3.3筛选数据 21

3.3.1条件1 21

3.3.2条件2 22

3.4列中的非重复值 23

3.5数据分组 23

3.6聚合 25

3.7用户自定义函数(UDF) 26

3.7.1传统的Python函数 26

3.7.2使用lambda函数 27

3.7.3 Pandas UDF(向量化的UDF) 28

3.7.4 Pandas UDF(多列) 29

3.8去掉重复值 29

3.9删除列 30

3.10写入数据 30

3.10.1 csv 31

3.10.2嵌套结构 31

3.11小结 31

第4章 线性回归 33

4.1变量 33

4.2理论 34

4.3说明 41

4.4评估 42

4.5代码 43

4.5.1数据信息 43

4.5.2步骤1:创建SparkSession对象 44

4.5.3步骤2:读取数据集 44

4.5.4步骤3:探究式数据分析 44

4.5.5步骤4:特征工程化 45

4.5.6步骤5:划分数据集 47

4.5.7步骤6:构建和训练线性回归模型 47

4.5.8 步骤7:在测试数据上评估线性回归模型 48

4.6小结 48

第5章 逻辑回归 49

5.1概率 49

5.1.1使用线性回归 50

5.1.2使用Logit 53

5.2截距(回归系数) 54

5.3虚变量 55

5.4模型评估 56

5.4.1正确的正面预测 56

5.4.2正确的负面预测 57

5.4.3错误的正面预测 57

5.4.4错误的负面预测 57

5.4.5准确率 57

5.4.6召回率 57

5.4.7精度 58

5.4.8 F1分数 58

5.4.9截断/阈值概率 58

5.4.10 ROC曲线 58

5.5逻辑回归代码 59

5.5.1数据信息 59

5.5.2步骤1:创建Spark会话对象 60

5.5.3步骤2:读取数据集 60

5.5.4步骤3:探究式数据分析 60

5.5.5步骤4:特征工程 63

5.5.6步骤5:划分数据集 68

5.5.7步骤6:构建和训练逻辑回归模型 69

5.5.8训练结果 69

5.5.9步骤7:在测试数据上评估线性回归模型 70

5.5.10混淆矩阵 71

5.6小结 72

第6章 随机森林 73

6.1决策树 73

6.1.1熵 75

6.1.2信息增益 76

6.2随机森林 78

6.3代码 80

6.3.1数据信息 80

6.3.2步骤1:创建SparkSession对象 81

6.3.3步骤2:读取数据集 81

6.3.4步骤3:探究式数据分析 81

6.3.5步骤4:特征工程 85

6.3.6步骤5:划分数据集 86

6.3.7步骤6:构建和训练随机森林模型 87

6.3.8步骤7:基于测试数据进行评估 87

6.3.9准确率 89

6.3.10精度 89

6.3.11 AUC曲线下的面积 89

6.3.12步骤8:保存模型 90

6.4小结 90

第7章 推荐系统 91

7.1推荐 91

7.1.1基于流行度的RS 92

7.1.2基于内容的RS 93

7.1.3基于协同过滤的RS 95

7.1.4混合推荐系统 103

7.2代码 104

7.2.1数据信息 105

7.2.2步骤1:创建SparkSession对象 105

7.2.3步骤2:读取数据集 105

7.2.4步骤3:探究式数据分析 105

7.2.5步骤4:特征工程 108

7.2.6步骤5:划分数据集 109

7.2.7步骤6:构建和训练推荐系统模型 110

7.2.8步骤7:基于测试数据进行预测和评估 110

7.2.9步骤8:推荐活动用户可能会喜欢的排名靠前的电影 111

7.3小结 114

第8章 聚类 115

8.1初识聚类 115

8.2用途 117

8.2.1 K-均值 117

8.2.2层次聚类 127

8.3代码 131

8.3.1数据信息 131

8.3.2步骤1:创建SparkSession对象 131

8.3.3步骤2:读取数据集 131

8.3.4步骤3:探究式数据分析 131

8.3.5步骤4:特征工程 133

8.3.6步骤5:构建K均值聚类模型 133

8.3.7步骤6:聚类的可视化 136

8.4小结 137

第9章 自然语言处理 139

9.1引言 139

9.2 NLP涉及的处理步骤 139

9.3语料 140

9.4标记化 140

9.5移除停用词 141

9.6词袋 142

9.7计数向量器 143

9.8 TF-IDF 144

9.9使用机器学习进行文本分类 145

9.10序列嵌入 151

9.11嵌入 151

9.12小结 160

查看更多关于的内容

出版社其它书籍
本类热门
在线购买PDF电子书
下载此书RAR压缩包