强化学习PDF电子书下载

（加）Richard S. Sutton，（美）Andrew G. Barto著

购买点数

16 点

出版社

北京：电子工业出版社

出版时间

2019

ISBN

标注页数

519 页

PDF页数

550 页

标签

书籍介绍

图书目录

第1章导论 1

1.1强化学习 1

1.2示例 4

1.3强化学习要素 5

1.4局限性与适用范围 7

1.5扩展实例：井字棋 8

1.6本章小结 12

1.7强化学习的早期历史 13

第Ⅰ部分表格型求解方法 23

第2章多臂赌博机 25

2.1一个k臂赌博机问题 25

2.2动作-价值方法 27

2.3 10臂测试平台 28

2.4增量式实现 30

2.5跟踪一个非平稳问题 32

2.6乐观初始值 34

2.7基于置信度上界的动作选择 35

2.8梯度赌博机算法 37

2.9关联搜索（上下文相关的赌博机） 40

2.10本章小结 41

第3章有限马尔可夫决策过程 45

3.1“智能体-环境”交互接口 45

3.2目标和收益 51

3.3回报和分幕 52

3.4分幕式和持续性任务的统一表示法 54

3.5策略和价值函数 55

3.6最优策略和最优价值函数 60

3.7最优性和近似算法 65

3.8本章小结 66

第4章动态规划 71

4.1策略评估（预测） 72

4.2策略改进 75

4.3策略迭代 78

4.4价值迭代 80

4.5异步动态规划 83

4.6广义策略迭代 84

4.7动态规划的效率 85

4.8本章小结 86

第5章蒙特卡洛方法 89

5.1蒙特卡洛预测 90

5.2动作价值的蒙特卡洛估计 94

5.3蒙特卡洛控制 95

5.4没有试探性出发假设的蒙特卡洛控制 98

5.5基于重要度采样的离轨策略 101

5.6增量式实现 107

5.7离轨策略蒙特卡洛控制 108

5.8折扣敏感的重要度采样 110

5.9每次决策型重要度采样 112

5.10本章小结 113

第6章时序差分学习 117

6.1时序差分预测 117

6.2时序差分预测方法的优势 122

6.3 TD（0）的最优性 124

6.4 Sarsa：同轨策略下的时序差分控制 127

6.5 Q学习：离轨策略下的时序差分控制 129

6.6期望Sarsa 131

6.7最大化偏差与双学习 133

6.8游戏、后位状态和其他特殊例子 135

6.9本章小结 136

第7章 n步自举法 139

7.1 n步时序差分预测 140

7.2 n步Sarsa 144

7.3 n步离轨策略学习 146

7.4带控制变量的每次决策型方法 148

7.5不需要使用重要度采样的离轨策略学习方法：n步树回溯算法 150

7.6一个统一的算法：n步Q（σ） 153

7.7本章小结 155

第8章基于表格型方法的规划和学习 157

8.1模型和规划 157

8.2 Dyna：集成在一起的规划、动作和学习 159

8.3当模型错误的时候 164

8.4优先遍历 166

8.5期望更新与采样更新的对比 170

8.6轨迹采样 173

8.7实时动态规划 176

8.8决策时规划 179

8.9启发式搜索 180

8.10预演算法 182

8.11蒙特卡洛树搜索 184

8.12本章小结 187

8.13第Ⅰ部分总结 188

第Ⅱ部分表格型近似求解方法 193

第9章基于函数逼近的同轨策略预测 195

9.1价值函数逼近 195

9.2预测目标（VE） 196

9.3随机梯度和半梯度方法 198

9.4线性方法 202

9.5线性方法的特征构造 207

9.5.1多项式基 208

9.5.2 傅立叶基 209

9.5.3粗编码 212

9.5.4瓦片编码 214

9.5.5径向基函数 218

9.6手动选择步长参数 219

9.7非线性函数逼近：人工神经网络 220

9.8最小二乘时序差分 225

9.9基于记忆的函数逼近 227

9.10基于核函数的函数逼近 229

9.11深入了解同轨策略学习：“兴趣”与“强调” 230

9.12本章小结 232

第10章基于函数逼近的同轨策略控制 239

10.1分幕式半梯度控制 239

10.2半梯度n步Sarsa 242

10.3平均收益：持续性任务中的新的问题设定 245

10.4弃用折扣 249

10.5差分半梯度n步Sarsa 251

10.6本章小结 252

第11章基于函数逼近的离轨策略方法 253

11.1半梯度方法 254

11.2离轨策略发散的例子 256

11.3致命三要素 260

11.4线性价值函数的几何性质 262

11.5对贝尔曼误差做梯度下降 266

11.6贝尔曼误差是不可学习的 270

11.7梯度TD方法 274

11.8强调TD方法 278

11.9减小方差 279

11.10本章小结 280

第12章资格迹 283

12.1 λ-回报 284

12.2 TD （λ） 287

12.3 n-步截断λ-回报方法 291

12.4重做更新：在线λ-回报算法 292

12.5真实的在线TD（λ） 294

12.6蒙特卡洛学习中的荷兰迹 296

12.7 Sarsa（λ） 298

12.8变量λ和γ 303

12.9带有控制变量的离轨策略资格迹 304

12.10从Watkins的Q（λ）到树回溯TB（λ） 308

12.11采用资格迹保障离轨策略方法的稳定性 310

12.12实现中的问题 312

12.13本章小结 312

第13章策略梯度方法 317

13.1策略近似及其优势 318

13.2策略梯度定理 320

13.3 REINFORCE：蒙特卡洛策略梯度 322

13.4带有基线的REINFORCE 325

13.5“行动器-评判器”方法 327

13.6持续性问题的策略梯度 329

13.7针对连续动作的策略参数化方法 332

13.8本章小结 333

第Ⅲ部分表格型深入研究 337

第14章心理学 339

14.1预测与控制 340

14.2经典条件反射 341

14.2.1阻塞与高级条件反射 342

14.2.2 Rescorla-Wagner模型 344

14.2.3 TD模型 347

14.2.4 TD模型模拟 348

14.3工具性条件反射 355

14.4延迟强化 359

14.5认知图 361

14.6习惯行为与目标导向行为 362

14.7本章小结 366

第15章神经科学 373

15.1神经科学基础 374

15.2收益信号、强化信号、价值和预测误差 375

15.3收益预测误差假说 377

15.4多巴胺 379

15.5收益预测误差假说的实验支持 382

15.6 TD误差/多巴胺对应 385

15.7神经“行动器-评判器” 390

15.8行动器与评判器学习规则 393

15.9享乐主义神经元 397

15.10集体强化学习 399

15.11大脑中的基于模型的算法 402

15.12成瘾 403

15.13本章小结 404

第16章应用及案例分析 413

16.1 TD-Gammon 413

16.2 Samuel的跳棋程序 418

16.3 Watson的每日双倍投注 421

16.4优化内存控制 424

16.5人类级别的视频游戏 428

16.6主宰围棋游戏 433

16.6.1 AlphaGo 436

16.6.2 AlphaGo Zero 439

16.7个性化网络服务 442

16.8热气流滑翔 446

第17章前沿技术 451

17.1广义价值函数和辅助任务 451

17.2基于选项理论的时序摘要 453

17.3观测量和状态 456

17.4设计收益信号 460

17.5遗留问题 464

17.6人工智能的未来 467

参考文献 473