出品 | CSDN云原生
Prometheus是一套开源的系统监控报警框架,2016年正式加CNCF基金会,成为受欢迎度仅次于Kubernetes的项目。
作为新一代技术框架,Prometheus具有多维度的数据模型、灵活的查询语言、多种可视化图像界面等特点,能够帮助可观测项目的落地实现。
(资料图片仅供参考)
CSDN云原生系列在线峰会第15期“Prometheus峰会”由青云科技副总裁周小四担任出品人,携手阿里云技术专家刘洋、擎创科技研发副总裁殷传旺、中海庭运维开发工程师罗凯、青云科技可观测与函数计算负责人霍秉杰、阿里云ACK容器服务可观测负责人冯诗淳,共同分享Prometheus监控技术建设经验和应用实践。
下面先简单回顾本期峰会的内容。关于本场峰会的演讲视频、完整文章将在CSDN云原生公众号陆续发布,敬请关注。
当前,Kubernetes的流行使得微服务架构十分普及,多语言、多通信协议成为常态,阿里云技术专家刘洋(炎寻)指出,这也给可观测性带来了更多挑战。
微服务、多语言、多协议环境下,端到端观测复杂度上升,埋点成本居高不下;
基础设施能力下沉,关注点分离,应用和底层之间无法自顶向下形成关联;
数据散落,工具多,缺少上下文,排查效率低下。
刘洋(炎寻)表示,在这样的背景下,eBPF可以带来新的解题思路。它可以在Linux内核中运行沙盒程序,而无需更改任何源代码或加载任何内核模块,具有无侵入、动态可编程、高性能、安全等特点。
我们都知道监控系统的重要意义,但往往在监控系统的选择上犹豫不决。Zabbix是一个企业级的分布式开源监控方案,能够监控各种网络参数以及服务器健康性和完整性的软件。Prometheus作为一套开源的系统监控报警框架,自加入CNCF基金会后,其受欢迎程度仅次于K8s。那么,到底该如何选择?
擎创科技研发副总裁殷传旺表示,将Zabbix和Prometheus融合是绝佳选择。Zabbix和Prometheus融合能够结合Zabbix的成熟生态、配置灵活性以及Prometheus的存储、展现优势,提供更强大的监控能力,实现双赢。
业务中当前有多少个端到端工作流实例,它们的状态是什么?在过去的24小时内,有多少个工作流实例未成功完成?为什么这些工作流程实例未成功完成?完成工作流程实例或工作流程中的特定步骤平均需要多少时间?
针对以上发问,中海庭运维开发工程师罗凯指出了对数据流进行监控的重要性,同时给出了解决方案。
罗凯表示,Prometheus Operator可以通过K8s原生资源crd的方式来管理监控,在集群中,一组需要监控的export(service)就是一个ServiceMonitor对象,在监控工作流的同时,也能够避免手动更改Promehtus配置情况的产生。
针对如何解决Prometheus的高可用和远程存储的问题,青云科技可观测与函数计算负责人霍秉杰介绍了VictoriaMetrics、Thanos以及Cortex等方案,并进行了对比。
霍秉杰表示,数据持久化到硬盘的方案里VictoriaMetrics是更好的选择,数据持久化到对象存储的方案里Thanos更受欢迎,Grafana Mimir更有潜力。
阿里云ACK容器服务可观测负责人冯诗淳(行疾)介绍了当前ACK可观测体系,同时指出了可观测能力对用户IT系统的重要性。
最后,针对如何基于ACK可观测能力建设Ops体系,冯诗淳从实际案例入手进行讲解,为大家提供建设新思路。