书籍 白话强化学习与PyTorch的封面

白话强化学习与PyTorchPDF电子书下载

(中国)高扬,叶振斌

购买点数

13

出版社

北京:电子工业出版社

出版时间

2019

ISBN

标注页数

374 页

PDF页数

390 页

标签

白话 学习

图书目录

传统篇 2

第1章 强化学习是什么 2

1.1题设 3

1.1.1多智能才叫智能 5

1.1.2人工智能的定义 5

1.2强化学习的研究对象 7

1.2.1强化学习的应用场合 7

1.2.2强化学习的建模 11

1.3本章小结 17

第2章 强化学习的脉络 18

2.1什么是策略 18

2.2什么样的策略是好的策略 19

2.3什么是模型 21

2.4如何得到一个好的策略 23

2.4.1直接法 23

2.4.2间接法 25

2.5马尔可夫决策过程 29

2.5.1状态转移 30

2.5.2策略与评价 31

2.5.3策略优化 36

2.6 Model-Based和Model-Free 36

2.6.1 Model-Based 36

2.6.2规划问题 37

2.6.3 Model-Free 38

2.7本章小结 38

第3章 动态规划 40

3.1状态估值 40

3.2策略优化 42

3.3本章小结 43

第4章 蒙特卡罗法 45

4.1历史由来 45

4.2状态估值 47

4.3两种估值方法 49

4.3.1首次访问蒙特卡罗策略估值 49

4.3.2每次访问蒙特卡罗策略估值 49

4.3.3增量平均 50

4.4弊端 51

4.5本章小结 52

第5章 时间差分 53

5.1 SARSA算法 53

5.1.1 SARSA算法的伪代码 54

5.1.2 SARSA算法的优点和缺点 57

5.2 Q-Learning算法 57

5.2.1 Q-Learning算法的伪代码 58

5.2.2 Q-Learning算法的优点和缺点 59

5.3 On-Policy和Off-Policy 61

5.4 On-Line学习和Off-Line学习 62

5.5比较与讨论 63

5.6本章小结 65

现代篇 68

第6章 深度学习 68

6.1 PyTorch简介 69

6.1.1历史渊源 70

6.1.2支持 71

6.2神经元 74

6.3线性回归 77

6.4激励函数 80

6.4.1 Sigmoid函数 81

6.4.2 Tanh函数 82

6.4.3 ReLU函数 82

6.4.4 Linear函数 83

6.5神经网络 84

6.6网络训练 85

6.6.1输入 86

6.6.2输出 86

6.6.3网络结构 87

6.6.4损失函数 88

6.6.5求解极小值 90

6.6.6线性回归 90

6.6.7凸函数 93

6.6.8二元(多元)凸函数 98

6.6.9导数补充 101

6.6.10导数怎么求 103

6.6.11“串联”的神经元 105

6.6.12模型的工作 107

6.6.13理解损失函数 108

6.7深度学习的优势 108

6.7.1线性和非线性的叠加 109

6.7.2不用再提取特征 111

6.7.3处理线性不可分 112

6.8手写数字识别公开数据集 114

6.9全连接网络 117

6.9.1输入与输出 118

6.9.2代码解读 119

6.9.3运行结果 125

6.10卷积神经网络 125

6.10.1代码解读 125

6.10.2理解卷积神经网络的结构 132

6.10.3卷积核的结构 134

6.11循环神经网络 135

6.11.1网络结构 136

6.11.2应用案例 140

6.11.3代码解读 143

6.12其他注意事项 148

6.12.1并行计算 148

6.12.2梯度消失和梯度爆炸 152

6.12.3归一化 157

6.12.4超参数的设置 159

6.12.5正则化 161

6.12.6不唯一的模型 170

6.13深度神经网络的发展趋势 171

6.14本章小结 178

第7章 Gym——不要钱的试验场 180

7.1简介 180

7.2安装 182

7.3类别 183

7.4接口 188

7.5本章小结 191

第8章 DQN算法族 192

8.1 2013版DQN 192

8.1.1模型结构 192

8.1.2训练过程 195

8.1.3 Replay Memory 197

8.1.4小结 198

8.2 2015版DQN 198

8.2.1模型结构 198

8.2.2训练过程 199

8.2.3 Target网络 200

8.2.4小结 201

8.3 Double DQN 201

8.3.1模型结构 202

8.3.2训练过程 202

8.3.3效果 203

8.3.4小结 204

8.4 Dueling DQN 204

8.4.1模型结构 205

8.4.2效果 207

8.4.3小结 208

8.5优先回放DQN 208

8.6本章小结 209

第9章 PG算法族 211

9.1策略梯度 211

9.2 DPG 213

9.3 Actor-Critic 214

9.4 DDPG 214

9.5本章小结 218

第10章 A3C 219

10.1模型结构 219

10.1.1 A3C Q-Learning 219

10.1.2 A3C Actor-Critic 222

10.2本章小结 224

第11章 UNREAL 226

11.1主任务 226

11.2像素控制任务 227

11.3奖励值预测 229

11.4值函数回放 230

11.5损失函数 231

11.6本章小结 232

扩展篇 236

第12章 NEAT 236

12.1遗传算法 237

12.1.1进化过程 237

12.1.2算法流程 238

12.1.3背包问题 239

12.1.4极大(小)值问题 247

12.2 NEAT原理 255

12.2.1基因组 255

12.2.2变异和遗传 256

12.3 NEAT示例 258

12.4本章小结 262

第13章 SerpentAI 263

13.1简介 263

13.2安装和配置 264

13.3示例 265

13.3.1创建Game Plugin 265

13.3.2创建Game Agent 268

13.3.3训练Context Classifier 271

13.3.4训练Agent 282

13.4本章小结 286

第14章 案例详解 287

14.1 AlphaGo 287

14.1.1 AlphaGo的前世今生 287

14.1.2“深蓝”是谁 288

14.1.3围棋到底有多复杂 290

14.1.4论文要义 294

14.1.5成绩 302

14.1.6开源项目 303

14.2 AlphaGo Zero 304

14.2.1改进之处 304

14.2.2成绩 308

14.2.3开源项目 309

14.3试验场大观 311

14.3.1 StarCraftⅡ 311

14.3.2 VizDoom 320

14.3.3 Universe 323

14.3.4 DOTA2 324

14.4本章小结 329

第15章 扩展讨论 331

15.1 TRPO 331

15.2反向强化学习 332

15.3模型压缩 333

15.3.1剪枝 335

15.3.2量化 336

15.3.3结构压缩 337

15.4本章小结 339

后记 341

附录A 342

A.1安装Ubuntu 342

A.2安装CUDA环境 347

A.3安装PyTorch 348

A.4下载本书示例代码 349

A.5安装PyCharm 350

A.5.1方法一 350

A.5.2方法二 351

A.6安装Jupyter Notebook 351

A.7安装相关Python依赖包 352

A.7.1安装Box2D 352

A.7.2安装MuJoCo 352

A.7.3安装SerpentAI 355

A.7.4安装Spritex 359

A.7.5安装StarCraftⅡ 360

A.7.6安装VizDoom 363

A.8安装OpenCV 364

A.9 Python语言简介 364

A.9.1安装Python 365

A.9.2 Hello World 365

A.9.3行与缩进 365

A.9.4变量类型 366

A.9.5循环语句 367

A.9.6函数 368

A.9.7模块 369

A.9.8小结 369

A.10本书涉及的主要开源软件版本 369

参考文献 371

查看更多关于的内容

本类热门
在线购买PDF电子书
下载此书RAR压缩包