第1章 各行业中的数据分析及其应用 1
1.1 数据分析是什么 1
1.1.1 数据采集 2
1.1.2 数据准备 3
1.1.3 数据分析 4
1.1.4 模型建立 4
1.1.5 结果 4
1.1.6 投入使用 4
1.2 分析的类型 5
1.3 了解数据及其类型 6
1.4 什么是大数据分析 6
1.4.1 大数据分析的挑战 7
1.4.2 数据分析和大数据工具 8
1.4.3 在各种行业中数据分析的作用 10
1.4.4 谁是分析竞争者 12
1.5 不同行业中的关键模型及其应用 12
1.6 小结 13
第2章 银行业案例分析 15
2.1 在银行部门中分析的应用 16
2.1.1 通过交叉销售和向上销售增加利润 16
2.1.2 最大限度地减少客户流失 17
2.1.3 增加获取客户的能力 17
2.1.4 预测银行贷款违约 18
2.1.5 预测欺诈活动 18
2.2 案例分析:使用逻辑回归模型预测银行贷款违约 20
2.2.1 逻辑回归方程 21
2.2.2 概率 21
2.2.3 逻辑回归曲线 22
2.2.4 逻辑回归假设 22
2.3 在逻辑回归模型中的各个自变量统计检验 24
2.3.1 逻辑回归 24
2.3.2 在逻辑回归模型中预测值的验证 25
2.4 基于R的逻辑回归模型 29
2.4.1 关于数据 29
2.4.2 执行数据探索 29
2.4.3 完全数据的建模与解释 34
2.4.4 训练数据和测试数据的模型构建及其解释 37
2.4.5 预测值验证 42
2.5 基于SAS的逻辑回归模型 45
2.6 小结 68
第3章 零售业案例分析 69
3.1 零售业中的供应链 69
3.2 零售商店的类型 70
3.3 零售行业中分析的作用 71
3.3.1 客户参与 71
3.3.2 供应链优化 72
3.3.3 价格优化 73
3.3.4 空间优化和分类组合规划 73
3.4 案例分析:使用SARIMA模型为Glen零售商提供销售预测 75
3.5 ARIMA建模的三个步骤 79
3.5.1 识别阶段 79
3.5.2 估计和诊断检查阶段 80
3.5.3 预测阶段 81
3.6 季节性ARIMA模型或SARIMA 81
3.7 评估时间序列模型的预测准确度 83
3.8 基于R的季节性ARIMA模型 84
3.8.1 关于数据 84
3.8.2 对时间序列数据执行数据探索 85
3.9 基于SAS的季节性ARIMA模型 99
3.10 小结 118
第4章 电信案例分析 119
4.1 电信网络的类型 119
4.2 在电信行业中分析的作用 120
4.2.1 预测客户流失 120
4.2.2 网络分析与优化 122
4.2.3 欺诈检测和预防 122
4.2.4 价格优化 123
4.3 案例分析:使用决策树模型预测客户流失 124
4.3.1 决策树的优点和局限性 124
4.3.2 处理决策树中的缺失值 125
4.3.3 处理决策树中的过拟合 125
4.3.4 决策树的工作原理 126
4.3.5 选择决策树最佳分割标准的量度 127
4.4 基于R的决策树模型 132
4.4.1 关于数据 132
4.4.2 执行数据探索 132
4.4.3 将数据集拆分成训练集和测试集 135
4.4.4 基于训练数据和测试数据构建和解释模型 136
4.5 基于SAS的决策树模型 144
4.5.1 完整数据的模型构建和解释 150
4.5.2 基于训练数据和测试数据的模型构建和解释 156
4.6 小结 163
第5章 医疗行业案例分析 165
5.1 医疗行业中分析的应用 167
5.1.1 预测疾病的暴发和预防性管理 168
5.1.2 预测患者的再住院率 168
5.1.3 医疗保健欺诈检测 169
5.1.4 改善患者的预后,降低成本 170
5.2 案例分析:使用随机森林模型预测恶性和良性乳腺肿瘤的概率 171
5.2.1 随机森林算法的工作机制 172
5.2.2 基于R的随机森林模型 177
5.2.3 基于SAS的随机森林模型 187
5.3 小结 204
第6章 航空公司案例分析 205
6.1 在航空业中分析的应用 207
6.1.1 个性化优惠和乘客体验 208
6.1.2 更安全的航行 209
6.1.3 航空欺诈检测 209
6.1.4 预测航班延误 210
6.2 案例分析:使用多元线性回归模型预测航班延误 211
6.2.1 多元线性回归方程 212
6.2.2 多元线性回归的假设及检查是否违反了模型假设 212
6.2.3 在多元线性回归模型中的变量选择 213
6.2.4 评估多元线性回归模型 214
6.3 基于R的多元线性回归模型 215
6.3.1 关于数据 215
6.3.2 执行数据探索 216
6.3.3 基于训练数据和测试数据进行模型构建和解释 222
6.4 基于SAS的多元线性回归模型 232
6.5 小结 260
第7章 快速消费品案例分析 261
7.1 FMCG行业中分析的应用 262
7.1.1 客户体验与参与 262
7.1.2 销售和营销 263
7.1.3 物流管理 263
7.1.4 降价优化 264
7.2 案例分析:使用RFM模型和k均值聚类进行客户细分 265
7.2.1 RFM模型概述 265
7.2.2 k均值聚类的概述 268
7.3 基于R的RFM模型与k均值聚类 270
7.3.1 关于数据 271
7.3.2 执行数据探索 271
7.4 基于SAS的RFM模型与k均值聚类 289
7.5 小结 302