×

日志告警作为 Red Hat OpenShift Logging Operator 安装的一部分安装。告警依赖于日志收集和日志存储后端导出的指标。如果您在安装 Red Hat OpenShift Logging Operator 时选择了“在此命名空间启用操作员推荐的集群监控”选项,则会启用这些指标。

默认情况下,日志告警会发送到 `openshift-monitoring` 命名空间中的 Red Hat OpenShift Service on AWS 监控堆栈 Alertmanager,除非您已禁用本地 Alertmanager 实例。

在管理员和开发者视角访问告警 UI

可以通过 Red Hat OpenShift Service on AWS Web 控制台的**管理员**视角和**开发者**视角访问告警 UI。

  • 在**管理员**视角中,转到**观察**→**告警**。此视角中告警 UI 的三个主要页面是**告警**、**静默**和**告警规则**页面。

  • 在**开发者**视角中,转到**观察**→****→**告警**。在此视角中,告警、静默和告警规则都从**告警**页面进行管理。**告警**页面中显示的结果特定于所选项目。

在**开发者**视角中,您可以从核心 Red Hat OpenShift Service on AWS 和您在**项目:**列表中可以访问的用户定义项目中进行选择。但是,如果您未以集群管理员身份登录,则不会显示与核心 Red Hat OpenShift Service on AWS 项目相关的告警、静默和告警规则。

日志收集器告警

在日志记录 5.8 和更高版本中,以下告警由 Red Hat OpenShift Logging Operator 生成。您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些告警。

告警名称 消息 描述 严重性

CollectorNodeDown

Prometheus 无法抓取超过 10 分钟的 `namespace`/`pod` 收集器组件。

无法抓取收集器。

严重

CollectorHighErrorRate

`value`% 的记录已由 `namespace`/`pod` 收集器组件导致错误。

`namespace`/`pod` 收集器组件错误率很高。

严重

CollectorVeryHighErrorRate

`value`% 的记录已由 `namespace`/`pod` 收集器组件导致错误。

`namespace`/`pod` 收集器组件错误率非常高。

严重

Vector 收集器告警

在日志记录 5.7 和更高版本中,以下告警由 Vector 收集器生成。您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些告警。

表 1. Vector 收集器告警
告警 消息 描述 严重性

CollectorHighErrorRate

Vector 导致  条记录出错。

Vector 输出错误数量很高,默认情况下,前 15 分钟超过 10 个。

警告

CollectorNodeDown

Prometheus 无法抓取超过 10 分钟的 Vector

Vector 报告 Prometheus 无法抓取特定的 Vector 实例。

严重

CollectorVeryHighErrorRate

Vector 导致  条记录出错。

Vector 组件错误数量非常高,默认情况下,前 15 分钟超过 25 个。

严重

FluentdQueueLengthIncreasing

在过去 1 小时内,fluentd 缓冲区队列长度持续增加超过 1。当前值为

Fluentd 报告队列大小正在增加。

警告

Fluentd 收集器告警

以下告警由旧版 Fluentd 日志收集器生成。您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些告警。

表 2. Fluentd 收集器告警
告警 消息 描述 严重性

FluentDHighErrorRate

fluentd 导致  条记录出错。

FluentD 输出错误数量很高,默认情况下,前 15 分钟超过 10 个。

警告

FluentdNodeDown

Prometheus 无法抓取超过 10 分钟的 fluentd

Fluentd 报告 Prometheus 无法抓取特定的 Fluentd 实例。

严重

FluentdQueueLengthIncreasing

在过去 1 小时内,fluentd 缓冲区队列长度持续增加超过 1。当前值为

Fluentd 报告队列大小正在增加。

警告

FluentDVeryHighErrorRate

fluentd 导致  条记录出错。

FluentD 输出错误数量非常高,默认情况下,前 15 分钟超过 25 个。

严重

Elasticsearch 告警规则

您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些告警规则。

表 3. 告警规则
告警 描述 严重性

ElasticsearchClusterNotHealthy

集群健康状态至少已为红色 2 分钟。集群不接受写入,分片可能丢失,或者主节点尚未选举。

严重

ElasticsearchClusterNotHealthy

集群健康状态至少已为黄色 20 分钟。一些分片副本未分配。

警告

ElasticsearchDiskSpaceRunningLow

预计集群将在未来 6 小时内磁盘空间不足。

严重

ElasticsearchHighFileDescriptorUsage

预计集群将在未来一小时内文件描述符不足。

警告

ElasticsearchJVMHeapUseHigh

指定节点上的 JVM 堆使用率很高。

告警

ElasticsearchNodeDiskWatermarkReached

由于可用磁盘空间不足,指定节点已达到低水位线。无法再将分片分配到此节点。您应该考虑为此节点添加更多磁盘空间。

信息

ElasticsearchNodeDiskWatermarkReached

由于可用磁盘空间不足,指定节点已达到高水位线。如果可能,一些分片将重新分配到不同的节点。确保为此节点添加更多磁盘空间或删除分配到此节点的旧索引。

警告

ElasticsearchNodeDiskWatermarkReached

由于可用磁盘空间不足,指定节点已达到洪水水位线。每个在此节点上分配了分片的索引都会强制执行只读块。当磁盘使用率低于高水位线时,必须手动释放索引块。

严重

ElasticsearchJVMHeapUseHigh

指定节点上的 JVM 堆使用率过高。

告警

ElasticsearchWriteRequestsRejectionJumps

Elasticsearch 在指定节点上遇到写入拒绝次数增加的情况。此节点可能无法跟上索引速度。

警告

AggregatedLoggingSystemCPUHigh

指定节点上系统使用的 CPU 过高。

告警

ElasticsearchProcessCPUHigh

指定节点上 Elasticsearch 使用的 CPU 过高。

告警