书籍 SRE生存指南  系统中断响应与正常运行时间最大化的封面

SRE生存指南 系统中断响应与正常运行时间最大化PDF电子书下载

冯文辉译;(美国)Nat Welch

购买点数

10

出版社

北京:电子工业出版社

出版时间

2019

ISBN

标注页数

226 页

PDF页数

245 页

图书目录

1 简介 1

SRE简史 2

SRE是什么 3

关于这本书 7

以SRE作为新项目的框架 9

小结 12

2 监控 13

为什么要监控 13

检测应用程序 16

度量什么 23

SLI、SLO和错误预算简介 26

错误预算 27

收集和保存监控数据 29

轮询应用程序 29

推送应用程序 32

展示监控信息 35

任意查询 35

图表 36

仪表板 37

聊天机器人 38

管理和维护监控数据 38

沟通 39

他们知道有监控吗 39

小结 40

参考资料 40

3 事故响应 42

什么是事故 43

什么是事故响应 45

警报 47

什么时候发起警报 48

怎么发出警报 49

向谁发出警报 54

随时待命 55

沟通 57

事故指挥系统 59

在哪里沟通 61

恢复系统 61

警报解除 63

小结 64

4 事后回顾 65

什么是事后回顾 65

为什么写事后回顾报告 66

何时写事后回顾报告 68

开展事故分析 69

如何写事后回顾报告 71

总结 71

影响 72

时间 73

根本原因 74

行动项 75

附录 77

停止事后指责 77

举行事后回顾会议 79

分析以往的事后回顾报告 80

MTTR与MTBF 81

警报疲劳 81

讨论过去的服务中断 81

小结 82

参考资料 82

5 测试和发布 83

测试 84

测试内容 87

发布 100

何时发布 101

回滚 104

自动化 104

持续 105

小结 106

6 容量规划 107

企业财务简介 108

为什么需要规划 110

风险管理与期望管理 111

定义一个规划 112

当前的容量是多少 113

何时达到容量极限 115

应该如何更改容量 119

执行规划 125

架构——性能变化的根源 126

技术作为利润中心和采购 128

小结 128

7 构建工具 129

寻找项目 131

定义项目 133

RDD 133

设计文档 136

项目计划 138

例子 139

回顾会与站会 141

工作分配 142

构建项目 143

关于编写代码的建议 143

关注点分离 144

长期工作 145

笔记本 148

文档与维护项目 149

小结 150

8 用户体验 151

设计和用户体验简介 155

现实世界的交互设计 157

用户测试 160

挑选一种体验 161

设计测试 162

寻找要测试的人 162

开发者体验 163

工具经验 164

绩效预算 164

安全性 166

身份认证 167

授权 168

风险概况 168

网络钓鱼 169

ACM道德准则 170

小结 171

参考资料 172

9 网络基础 173

互联网 173

发送一个HTTP请求 175

DNS 175

以太网和TCP/IP 179

HTTP 186

curl与wget 189

网络监控工具 194

netstat 194

nc 195

tcpdump 196

小结 197

参考资料 197

10 Linux和云基础 198

Linux基础 198

一切皆是文件 199

进程是什么 206

syscalls 207

构建自己的工具 213

云基础 214

虚拟机 215

容器 216

负载均衡 218

自动伸缩 219

存储 219

队列与发布/订阅 220

伸缩单元 221

架构面试示例 222

小结 226

参考资料 226

查看更多关于的内容

本类热门
在线购买PDF电子书
下载此书RAR压缩包