安装 OpenShift Container Platform 后,核心平台监控组件会立即开始收集指标,您可以查询和查看这些指标。默认的集群内监控堆栈包括收集集群指标的核心平台 Prometheus 实例和路由警报的核心 Alertmanager 实例,以及其他组件。作为集群管理员,根据谁将使用监控堆栈以及用于什么目的,您可以进一步配置这些监控组件以满足不同用户在各种场景中的需求。
除了核心平台监控之外,您还可以选择为用户定义的项目启用监控以进行用户工作负载监控。然后,用户可以监控自己的服务和工作负载,而无需额外的监控解决方案。
安装 OpenShift Container Platform 后,集群管理员通常会配置核心平台监控以满足其需求。这些活动包括设置存储和为 Prometheus、Alertmanager 和其他监控组件配置选项。
默认情况下,在新安装的 OpenShift Container Platform 系统中,用户可以查询和查看收集的指标。如果您希望用户接收警报通知,则只需配置警报接收器即可。此处列出的任何其他配置选项都是可选的。 |
配置警报接收器,以便 Alertmanager 可以将警报发送到外部通知系统,例如电子邮件、Slack 或 PagerDuty。
对于较短期的数据保留,为 Prometheus 和 Alertmanager 配置持久性存储以存储指标和警报数据。指定 Prometheus 和 Thanos Ruler 的指标数据保留参数。
|
对于更长期的数据保留,配置远程写入功能以启用 Prometheus 将摄取的指标发送到远程系统进行存储。
务必将集群 ID 标签添加到指标以用于您的远程写入存储配置。 |
为监控堆栈组件分配容忍度,以便管理员可以将其移动到受污染的节点。
设置指标收集的正文大小限制,以帮助避免在被抓取的目标返回包含大量数据的响应时 Prometheus 消耗过多内存的情况。
修改或创建集群的警报规则。这些规则指定触发警报的条件,例如高 CPU 或内存使用率、网络延迟等等。
为监控组件指定资源限制和请求,以确保运行监控组件的容器拥有足够的 CPU 和内存资源。
监控堆栈配置完成后,Prometheus 会根据您的设置从指定的服务器收集指标并存储这些指标。您可以转到 OpenShift Container Platform Web 控制台中的“观察”页面以查看和查询收集的指标、管理警报、识别性能瓶颈以及根据需要扩展资源。
作为集群管理员,您可以选择性地为用户自定义项目启用监控,除了核心平台监控之外。然后,非管理员用户(例如开发人员)可以监控他们自己的项目,而无需依赖核心平台监控。
集群管理员通常会完成以下活动来配置用户自定义项目,以便用户可以查看收集的指标、查询这些指标并接收他们自己项目的警报
分配monitoring-rules-view
、monitoring-rules-edit
或monitoring-edit
集群角色,以授予非管理员用户监控用户自定义项目的权限。
分配user-workload-monitoring-config-edit
角色,以授予非管理员用户配置用户自定义项目的权限。
为用户自定义项目启用警报路由,以便开发人员和其他用户可以为其项目配置自定义警报和警报路由。
如果需要,可以将用户自定义项目的警报路由配置为使用一个可选的 Alertmanager 实例,该实例仅供用户自定义项目使用。
启用并配置用户自定义项目的监控后,开发人员和其他非管理员用户可以执行以下活动来设置和使用他们自己项目的监控