SRE 实践是在 2003 年左右开始在 Google 内部诞生和发展的。最近,谷歌决定公开该公司创建、监控、改进和维护一些世界上最常用的在线服务的方法。
为了在更实际的方面之前理解 SRE 理念,我们可以引用 Ben Treynor Sloss,他创造了 SRE 一词,现任 Google 工程副总裁。
“当你要求软件工程师设计运营功能时,就会发生 SRE ,”该经理在接受采访时说道。
因此,SRE 团队或经理执行的工作历来由运营团队执行,但通过添加软件工程的思维方式和技能来实现:关键点是用自动化代替人类工作的能力(通常是工程) 。
有了这些前提,就可以立即认识到Google 为 SRE 实践定义的关键原则的价值,即:
“中性”风险管理。也就是说,不要假装在应用程序工作负载的生命 波兰电报数据 周期中永远不会发生错误。相反,接受这个事实并做好准备。
根据直觉,使用系统的人和维护系统运行的人本质上有不同的服务目标,因此需要对后者进行仔细的定义和共同评估,以使它们立即趋同,并且提供的价值是每个利益相关者都正确认识。
尽量减少不带来价值和重复性的活动。
设置监控,使您即使在分布式环境中也始终能够控制情况。
设计不会使平台或系统的运行面临风险的版本。
保持系统的整体复杂性较低,使其能够随着时间的推移在生理上增加
Google还将SRE的原则与应用各种原则的一系列实践相结合,并试图保持系统的运行恒定。 SRE 团队必须组织起来,尊重 Google 认为的可信服务的层次结构。
在分层金字塔的底部,我们发现了监控以及在用户注意到问题之前识别问题的能力。
紧接着,我们的团队有能力通过根本原因分析以及易于测试和适用的纠正措施来响应问题。
最后,在金字塔的顶部,关注可靠产品所需的设计和计算资源。