阿里云+作业帮+小红书:论剑云原生时代的 SRE与智能运维

出品 | CSDN云原生

2022年4月12日,CSDN云原生系列在线峰会第1期“SRE与智能运维峰会”如期而至,本期峰会出品人、阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)携手作业帮运维负责人聂安、小红书SRE业务运维组负责人陈鹏、阿里云高级技术专家周宇(屠虎),带来了一场云原生时代里,SRE与智能运维的前瞻观察和实践分享盛宴。 完整版直播回放请戳>>链接观看

下面先简单回顾本期峰会的内容。演讲视频、完整文章将从4月13日起在CSDN云原生微信公众号陆续发布,敬请关注。

SRE与智能运维的机遇和挑战

SRE全称Site Reliability Engineer,也就是网站可靠性工程师,其职责主要体现在交付、日常运维、容量管理三个方面。阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)在开场分享中,将其发展归纳为五个阶段:

纯手工:单兵作战,突出个人能力

标准化:文档化、规范化、流程化

平台化:可视化、自动化

DevOps:突破组织边界

智能化:云原生、AI

在智能化时代,一方面,SRE团队面临着Everything is code,物理设施逐步被屏蔽,多云资源带来管理复杂性等挑战;另一方面,K8s让Infrastructure as Code成为可能,为SRE的工作带来无限的想象空间。

作业帮的运维转型

作业帮运维负责人聂安在回顾互联网运维发展史、作业帮运维转型和探索历程的基础上,将作业帮的经验总结为五条。

传统运维职责是将工业制成品组装成服务、交付给用户,并维持服务运转;特点是强依附于业务。

云原生时代,公有云大量使用、DevOps真实达成,传统运维的职责不断被外包、转移、替代,出现了领域危机。

运维转型,核心是提升角色认知。运维人,要把自己从依附的运营角色、调整为独立的运维服务提供方,运维即服务OPaS。

作业帮做了一些转型实践,比如CloudOps借助洋葱模型转型为云服务提供商,SRE全力拓展超服务视角。

对于运维来说,平台是服务能力最有力的承接方式,但平台不是唯一方式。组织、规范、流程、平台,一样都不能少。

小红书的跨云多活能力建设

作为一个社交媒体和电子商务平台,小红书被誉为“中国的Instagram”,近年来发展迅猛,已经到了一个比较大的体量,这对其技术架构提出了较大挑战。因此,为了满足业务增长、技术架构迭代、容灾要求等方面的需求,小红书开启了跨云多活能力的建设。

作为小红书SRE业务运维组负责人,陈鹏从多活筹备(服务梳理、可行性验证、技术招标)、多活建设(东西向流量调度改造、南北向流量调度改造、业务改造)、多活治理(预案建设、容量管理、巡检)三个阶段进行了全面分享,并提出多活DB数据同步终极方案:shardmanager。 

阿里云神龙计算平台智能运维体系建设

神龙计算平台是一个百万级客户基础设施稳定性保障平台。阿里云在神龙计算平台基础上构建了一套智能运维平台,实现了数据采集、智能诊断、自动化运维、故障恢复等方面能力。

阿里云高级技术专家、神龙计算平台异常调度平台负责人周宇(屠虎)分享了阿里云是如何设计和建设这套体系,以及如何解决建设过程中遇到的技术难点。

问题和痛点=为什么要做建设这套智能诊断体系。

同类型智能化智能诊断运维产品调研与分析。

智能运维体系设计与实现,包括采集、诊断服务、算法支撑、自动化运维、故障快恢等核心组件设计思路,以及庞大体量背后,研发团队如何解决带来的问题。


聚焦云原生新技术、新实践,帮助开发者群体赢在开发范式转移的新时代。欢迎关注CSDN云原生 微信公众号~

推荐DIY文章
泉州田安路奕乐棋院有疫情吗最新消息 泉州海星小区源森围棋什么情况
一食纪为什么自杀 B站UP主一食纪现在怎么样了是哪里的最新消息
许昌快递停运了吗什么时候恢复 许昌疫情快递正常发货吗最新消息
汕头亚洲青年运动会什么时候开幕开始 汕头亚洲青年运动会取消了吗
为什么2022年端午节高速免费吗 高速公路免费怎么计算时间
杭州亚运会吉祥物谁设计的 杭州亚运会吉祥物分别代表什么有什么寓意
精彩新闻

超前放送