日志告警作为 Red Hat OpenShift Logging Operator 安装的一部分安装。告警依赖于日志收集和日志存储后端导出的指标。如果您在安装 Red Hat OpenShift Logging Operator 时选择了“在此命名空间启用操作员推荐的集群监控”选项,则会启用这些指标。
默认情况下,日志告警会发送到 `openshift-monitoring` 命名空间中的 Red Hat OpenShift Service on AWS 监控堆栈 Alertmanager,除非您已禁用本地 Alertmanager 实例。
可以通过 Red Hat OpenShift Service on AWS Web 控制台的**管理员**视角和**开发者**视角访问告警 UI。
在**管理员**视角中,转到**观察**→**告警**。此视角中告警 UI 的三个主要页面是**告警**、**静默**和**告警规则**页面。
在**开发者**视角中,转到**观察**→**
在**开发者**视角中,您可以从核心 Red Hat OpenShift Service on AWS 和您在**项目: |
在日志记录 5.8 和更高版本中,以下告警由 Red Hat OpenShift Logging Operator 生成。您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些告警。
告警名称 | 消息 | 描述 | 严重性 |
---|---|---|---|
CollectorNodeDown |
Prometheus 无法抓取超过 10 分钟的 `namespace`/`pod` 收集器组件。 |
无法抓取收集器。 |
严重 |
CollectorHighErrorRate |
`value`% 的记录已由 `namespace`/`pod` 收集器组件导致错误。 |
`namespace`/`pod` 收集器组件错误率很高。 |
严重 |
CollectorVeryHighErrorRate |
`value`% 的记录已由 `namespace`/`pod` 收集器组件导致错误。 |
`namespace`/`pod` 收集器组件错误率非常高。 |
严重 |
在日志记录 5.7 和更高版本中,以下告警由 Vector 收集器生成。您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些告警。
告警 | 消息 | 描述 | 严重性 |
---|---|---|---|
|
|
Vector 输出错误数量很高,默认情况下,前 15 分钟超过 10 个。 |
警告 |
|
|
Vector 报告 Prometheus 无法抓取特定的 Vector 实例。 |
严重 |
|
|
Vector 组件错误数量非常高,默认情况下,前 15 分钟超过 25 个。 |
严重 |
|
|
Fluentd 报告队列大小正在增加。 |
警告 |
以下告警由旧版 Fluentd 日志收集器生成。您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些告警。
告警 | 消息 | 描述 | 严重性 |
---|---|---|---|
|
|
FluentD 输出错误数量很高,默认情况下,前 15 分钟超过 10 个。 |
警告 |
|
|
Fluentd 报告 Prometheus 无法抓取特定的 Fluentd 实例。 |
严重 |
|
|
Fluentd 报告队列大小正在增加。 |
警告 |
|
|
FluentD 输出错误数量非常高,默认情况下,前 15 分钟超过 25 个。 |
严重 |
您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些告警规则。
告警 | 描述 | 严重性 |
---|---|---|
|
集群健康状态至少已为红色 2 分钟。集群不接受写入,分片可能丢失,或者主节点尚未选举。 |
严重 |
|
集群健康状态至少已为黄色 20 分钟。一些分片副本未分配。 |
警告 |
|
预计集群将在未来 6 小时内磁盘空间不足。 |
严重 |
|
预计集群将在未来一小时内文件描述符不足。 |
警告 |
|
指定节点上的 JVM 堆使用率很高。 |
告警 |
|
由于可用磁盘空间不足,指定节点已达到低水位线。无法再将分片分配到此节点。您应该考虑为此节点添加更多磁盘空间。 |
信息 |
|
由于可用磁盘空间不足,指定节点已达到高水位线。如果可能,一些分片将重新分配到不同的节点。确保为此节点添加更多磁盘空间或删除分配到此节点的旧索引。 |
警告 |
|
由于可用磁盘空间不足,指定节点已达到洪水水位线。每个在此节点上分配了分片的索引都会强制执行只读块。当磁盘使用率低于高水位线时,必须手动释放索引块。 |
严重 |
|
指定节点上的 JVM 堆使用率过高。 |
告警 |
|
Elasticsearch 在指定节点上遇到写入拒绝次数增加的情况。此节点可能无法跟上索引速度。 |
警告 |
|
指定节点上系统使用的 CPU 过高。 |
告警 |
|
指定节点上 Elasticsearch 使用的 CPU 过高。 |
告警 |