Red Hat OpenShift 可观测性提供对各种系统指标、日志、跟踪和事件的实时可见性、监控和分析,以帮助用户快速诊断和排除问题,从而避免影响系统或应用程序。为了确保应用程序和基础设施的可靠性、性能和安全性,OpenShift Container Platform 提供以下可观测性组件
监控
日志记录
分布式跟踪
Red Hat 版 OpenTelemetry
网络可观测性
功耗监控
Red Hat OpenShift 可观测性连接开源可观测性工具和技术,以创建一个统一的可观测性解决方案。Red Hat OpenShift 可观测性的组件协同工作,以帮助您收集、存储、交付、分析和可视化数据。
除了监控之外,Red Hat OpenShift 可观测性组件具有与核心 OpenShift Container Platform 发布周期不同的单独发布周期。有关其发布兼容性,请参阅 Red Hat 的 OpenShift 运算符生命周期 页面。 |
使用指标和针对 CPU 和内存使用情况、网络连接和其他资源使用情况的自定义警报,监控在 OpenShift Container Platform 上运行的应用程序的集群内健康状况和性能。监控堆栈组件由集群监控运算符部署和管理。
监控堆栈组件在每个 OpenShift Container Platform 安装中默认部署,并由集群监控运算符 (CMO) 管理。这些组件包括 Prometheus、Alertmanager、Thanos Querier 等。CMO 还部署 Telemeter 客户端,该客户端将平台 Prometheus 实例中的部分数据发送到 Red Hat,以促进集群的远程健康状况监控。
更多信息,请参见 监控概述 和 关于远程健康状况监控。
存储和可视化大量通过分布式系统(跨整个微服务堆栈)以及在高负载下传递的请求。将其用于监控分布式事务、收集对已检测服务的见解、网络分析、性能和延迟优化、根本原因分析以及对现代云原生基于微服务的应用程序中组件之间交互的故障排除。
更多信息,请参见 分布式跟踪架构。
检测、生成、收集和导出遥测跟踪、指标和日志,以分析和了解软件的性能和行为。使用 Tempo 或 Prometheus 等开源后端,或使用商业产品。学习一组 API 和约定,并拥有您生成的数据。
更多信息,请参见 Red Hat 版 OpenTelemetry。
使用网络可观测性运算符观察 OpenShift Container Platform 集群的网络流量并创建网络流。在 OpenShift Container Platform 控制台中查看和分析存储的网络流信息,以获得进一步的见解和故障排除。
更多信息,请参见 网络可观测性概述。
监控工作负载的功耗,并使用关键功耗指标(例如在容器级别测量的 CPU 或 DRAM)识别集群中功耗最高的命名空间。使用功耗监控运算符可视化与能源相关的系统统计信息。
更多信息,请参见 功耗监控概述。