我最近有幸参加了 SREcon23 Americas。这次会议是站点可靠性工程(SRE) 专业人士的聚会,他们分享了实施和改进 SRE 服务的经验。USENIX (高级计算系统协会)组织了这次年度会议。SREcon 2023 在风景秀丽的加利福尼亚州圣克拉拉举行,与会者来自世界各地。
SREcon23 美洲会议
开幕会议包括来自 Equinix 的 Amy Tobey 的“ SRE 的终局”和来自美国数字服务、校友 Amy Quispe、美国数字服务、Marc Alvidrez 和 CDC 美国数字服务 Rick Hawes 的“ SRE 在政府应对 COVID-19 疫情中的关键作用”。 这两个会议都强调了 SRE 在组织中发挥的关键作用。
会议三天内还有许多其他会议,演讲者来自许多深度参与 SRE 实践的组织,例如摩根大通、LinkedIn、摩根士丹利、Netflix、彭博、星展银行、Spotify 等。
我最喜欢的一些课程是:
一名 SRE 经理的告白
在受监管的环境中实施 SRE
财务弹性工程:控制云成本
SREcon 的意义
首先,SREcon 是针对那些对 SRE 充满热情并希望学习和分享经验的人们。
站点可靠性工程领域有大量研究,我结识了经常发表该主题论文的研究人员。此外,SREcon 还重点 加拿大电报数据 介绍了研究资助和资助获得者。
SREcon23 Americas 的重要收获
站点可靠性工程不是平台工程、可观察性或 DevOps。尽管许多人交替使用这个术语,但 SRE 是一门独立的学科。
目前市面上有许多可观察性工具,许多供应商在 SREcon23 Americas 上展出或演示,包括 Datadog、Splunk、Observe、New Relic、PagerDuty、Dataset、Dynatrace 和 Grafana。您必须深入了解您在可观察性工具中寻找的功能,才能找到合适的工具。
随着您采用托管服务和 PaaS 服务,云改变了 SRE 团队的方法,因为服务级别可靠性通常由云提供商构建和提供。现在它已成为一种共享责任模式。您可以利用云提供商提供的现成可靠性功能,然后为提供商未涵盖的组件和场景构建自己的可靠性层。例如,在可用区故障场景中,客户负责构建自己的可靠性层。
尽管我们是一个大团队,但我们在 Slack 上沟通非常有效。有些人通过 Slack 建立了新的虚拟小组,然后在晚上亲自见面,进行工作和集思广益。
在 SREcon 的三天里,我与其他与会者进行了多次互动,并热情地谈论了 SRE。我们作为一个社区聚集在一起,我期待与我在 SREcon23 Americas 上认识的新朋友进行更多交流。
有兴趣了解有关站点可靠性工程的更多信息以及 SRE 服务如何帮助您实现组织的可靠性目标吗?