×

在 Red Hat OpenShift Service on AWS 中,告警 UI 允许您管理告警、静默和告警规则。

  • 告警规则。告警规则包含一组条件,这些条件概述了集群中的特定状态。当这些条件为真时,就会触发告警。可以为告警规则分配一个严重性级别,该级别定义了告警的路由方式。

  • 告警。当告警规则中定义的条件为真时,就会触发告警。告警提供有关 Red Hat OpenShift Service on AWS 集群中出现的一组情况的通知。

  • 静默。可以将静默应用于告警,以防止在告警条件为真时发送通知。在处理问题时,您可以静默初始通知后的告警。

告警 UI 中可用的告警、静默和告警规则与您有权访问的项目相关。例如,如果您以具有 `cluster-admin` 角色的用户身份登录,则可以访问所有告警、静默和告警规则。

在管理员和开发者视角中访问告警 UI

可以通过 Red Hat OpenShift Service on AWS Web 控制台的管理员视角和开发者视角访问告警 UI。

  • 管理员视角中,转到监控告警。此视角中告警 UI 的三个主要页面是告警静默告警规则页面。

  • 开发者视角中,转到监控<项目名称>告警。在此视角中,所有告警、静默和告警规则都从告警页面进行管理。告警页面中显示的结果特定于所选项目。

开发者视角中,您可以从项目:<项目名称> 列表中选择您有权访问的核心 Red Hat OpenShift Service on AWS 项目和用户定义的项目。但是,如果您未以集群管理员身份登录,则不会显示与核心 Red Hat OpenShift Service on AWS 项目相关的告警、静默和告警规则。

搜索和过滤告警、静默和告警规则

您可以过滤在告警 UI 中显示的告警、静默和告警规则。本节提供了每个可用过滤选项的说明。

了解告警过滤器

管理员视角中,告警 UI 中的告警页面提供了与默认 Red Hat OpenShift Service on AWS 项目和用户定义项目相关的告警详细信息。该页面包含每个告警的严重性、状态和来源的摘要。还显示了告警进入当前状态的时间。

您可以按告警状态、严重性和来源进行过滤。默认情况下,仅显示处于触发中状态的平台告警。以下是每个告警过滤选项的说明

  • 状态过滤器

    • 触发中。由于告警条件为真且可选的 `for` 时长已过,因此告警正在触发。只要条件为真,告警就会继续触发。

    • 等待中。告警处于活动状态,但正在等待告警规则中指定的时长后才触发。

    • 静默。告警现在已静默一段时间。静默根据您定义的一组标签选择器临时静默告警。不会为与所有列出的值或正则表达式匹配的告警发送通知。

  • 严重性过滤器

    • 严重。触发告警的条件可能会产生严重影响。触发时,告警需要立即关注,通常会发送页面到个人或关键响应团队。

    • 警告。告警提供有关可能需要关注以防止问题发生的警告通知。警告通常会路由到票务系统以进行非立即审查。

    • 信息。告警仅用于提供信息。

    • 。告警没有定义的严重性。

    • 您还可以为与用户定义的项目相关的告警创建自定义严重性定义。

  • 来源过滤器

    • 平台。平台级告警仅与默认 Red Hat OpenShift Service on AWS 项目相关。这些项目提供核心 Red Hat OpenShift Service on AWS 功能。

    • 用户。用户告警与用户定义的项目相关。这些告警是用户创建的,并且是可自定义的。可以在安装后启用用户定义的工作负载监控,以便观察您自己的工作负载。

了解静默过滤器

管理员视角中,告警 UI 中的静默页面提供了有关应用于默认 Red Hat OpenShift Service on AWS 项目和用户定义项目中的告警的静默的详细信息。该页面包含每个静默的状态和静默结束时间的摘要。

您可以按静默状态进行过滤。默认情况下,仅显示活动等待中的静默。以下是每个静默状态过滤器选项的说明

  • 状态过滤器

    • 活动。静默处于活动状态,并且告警将静默到静默过期为止。

    • 等待中。静默已计划,但尚未活动。

    • 已过期。静默已过期,如果告警条件为真,则会发送通知。

了解告警规则过滤器

管理员视角中,告警 UI 中的告警规则页面提供了与默认 Red Hat OpenShift Service on AWS 项目和用户定义项目相关的告警规则的详细信息。该页面包含每个告警规则的状态、严重性和来源的摘要。

您可以按告警状态、严重性和来源过滤告警规则。默认情况下,仅显示平台告警规则。以下是每个告警规则过滤选项的说明

  • 告警状态过滤器

    • 触发中。由于告警条件为真且可选的 `for` 时长已过,因此告警正在触发。只要条件为真,告警就会继续触发。

    • 等待中。告警处于活动状态,但正在等待告警规则中指定的时长后才触发。

    • 静默。告警现在已静默一段时间。静默根据您定义的一组标签选择器临时静默告警。不会为与所有列出的值或正则表达式匹配的告警发送通知。

    • 未触发。告警未触发。

  • 严重性过滤器

    • 严重。告警规则中定义的条件可能会产生严重影响。当为真时,这些条件需要立即关注。与该规则相关的告警通常会发送页面到个人或关键响应团队。

    • 警告。告警规则中定义的条件可能需要关注以防止问题发生。与该规则相关的告警通常会路由到票务系统以进行非立即审查。

    • 信息。告警规则仅提供信息性告警。

    • 。告警规则没有定义的严重性。

    • 您还可以为与用户定义的项目相关的告警规则创建自定义严重性定义。

  • 来源过滤器

    • 平台级。平台级告警规则仅与 AWS 上的默认 Red Hat OpenShift Service 项目相关。这些项目提供 AWS 上 Red Hat OpenShift Service 的核心功能。

    • 用户级。用户定义的工作负载告警规则与用户定义的项目相关。这些告警规则由用户创建,可自定义。用户定义的工作负载监控可以在安装后启用,以便观察您自己的工作负载。

在开发人员视角下搜索和过滤告警、静默和告警规则

开发人员视角下,告警 UI 中的告警页面提供与所选项目相关的告警和静默的组合视图。每个显示的告警都提供指向其所属告警规则的链接。

在此视图中,您可以按告警状态和严重性进行过滤。默认情况下,如果您有权访问该项目,则会显示所选项目中的所有告警。这些过滤器与管理员视角中描述的过滤器相同。

获取有关告警、静默和告警规则的信息

告警 UI 提供有关告警及其所属告警规则和静默的详细信息。

先决条件
  • 您可以作为开发人员或具有所查看告警项目查看权限的用户访问集群。

步骤

要在管理员视角下获取有关告警的信息:

  1. 打开 AWS 上的 Red Hat OpenShift Service Web 控制台,然后转到监控告警告警页面。

  2. 可选:使用搜索列表中的名称字段按名称搜索告警。

  3. 可选:通过选择过滤器列表中的过滤器,按状态、严重性和来源过滤告警。

  4. 可选:通过单击名称严重性状态来源列标题中的一个或多个来对告警进行排序。

  5. 单击告警名称以查看其告警详细信息页面。该页面包含一个图表,用于说明告警时间序列数据。它还提供以下有关告警的信息

    • 告警说明

    • 与告警关联的消息

    • 附加到告警的标签

    • 指向其所属告警规则的链接

    • 告警的静默(如果存在)

要在管理员视角下获取有关静默的信息:

  1. 转到监控告警静默页面。

  2. 可选:使用按名称搜索字段按名称过滤静默。

  3. 可选:通过选择过滤器列表中的过滤器按状态过滤静默。默认情况下,将应用活动待处理过滤器。

  4. 可选:通过单击名称触发告警状态创建者列标题中的一个或多个来对静默进行排序。

  5. 选择静默名称以查看其静默详细信息页面。该页面包含以下详细信息

    • 告警规范

    • 开始时间

    • 结束时间

    • 静默状态

    • 触发告警的数量和列表

要在管理员视角下获取有关告警规则的信息:

  1. 转到监控告警告警规则页面。

  2. 可选:通过选择过滤器列表中的过滤器,按状态、严重性和来源过滤告警规则。

  3. 可选:通过单击名称严重性告警状态来源列标题中的一个或多个来对告警规则进行排序。

  4. 选择告警规则名称以查看其告警规则详细信息页面。该页面提供有关告警规则的以下详细信息

    • 告警规则名称、严重性和描述。

    • 定义触发告警条件的表达式。

    • 应满足条件的时间长度,才能触发告警。

    • 受告警规则控制的每个告警的图表,显示触发告警的值。

    • 受告警规则控制的所有告警的表格。

要在开发人员视角下获取有关告警、静默和告警规则的信息:

  1. 转到监控<项目名称>告警页面。

  2. 查看告警、静默或告警规则的详细信息

    • 可以通过单击告警名称旁边的大于号 (>),然后从列表中选择告警来查看告警详细信息

    • 可以通过单击告警详细信息页面中被静默部分中的静默来查看静默详细信息静默详细信息页面包含以下信息

      • 告警规范

      • 开始时间

      • 结束时间

      • 静默状态

      • 触发告警的数量和列表

    • 可以通过单击告警页面中告警旁边的kebab菜单,然后单击查看告警规则来查看告警规则详细信息

开发人员视角下,仅显示与所选项目相关的告警、静默和告警规则。

其他资源

管理静默

您可以在 AWS 上的 Red Hat OpenShift Service Web 控制台中,在管理员开发人员视角下为告警创建静默。创建静默后,当告警触发时,您将不会收到通知。

在您已收到初始告警通知,并且在解决导致告警触发的根本问题期间不想再收到通知的情况下,创建静默非常有用。

创建静默时,必须指定它是立即生效还是稍后生效。还必须设置静默到期后的持续时间。

创建静默后,您可以查看、编辑和使其失效。

创建静默后,它们会在 Alertmanager Pod 之间复制。但是,如果您未为 Alertmanager 配置持久性存储,则静默可能会丢失。例如,如果所有 Alertmanager Pod 同时重启,就会发生这种情况。

其他资源

静默告警

您可以静默特定告警,或静默与您定义的规范匹配的告警。

先决条件
  • 如果您是集群管理员,则可以作为具有 `dedicated-admin` 角色的用户访问集群。

  • 如果您是非管理员用户,您可以以以下用户角色访问集群

    • cluster-monitoring-view 集群角色,允许您访问 Alertmanager。

    • monitoring-alertmanager-edit 角色,允许您在 Web 控制台的**管理员**视角下创建和静默警报。

    • monitoring-rules-edit 集群角色,允许您在 Web 控制台的**开发者**视角下创建和静默警报。

步骤

要在**管理员**视角下静默特定警报

  1. 在 Red Hat OpenShift Service on AWS Web 控制台中,转到**观察** → **警报** → **警报**。

  2. 对于您要静默的警报,单击kebab 并选择**静默警报**,以打开带有为所选警报配置的默认配置的**静默警报**页面。

  3. 可选:更改静默的默认配置详细信息。

    保存静默前必须添加注释。

  4. 要保存静默,请单击**静默**。

要在**开发者**视角下静默特定警报

  1. 在 Red Hat OpenShift Service on AWS Web 控制台中,转到**观察** → **** → **警报**。

  2. 如有必要,通过选择警报名称旁边的大于符号(**>**)来展开警报的详细信息。

  3. 单击展开视图中的警报消息,以打开该警报的**警报详细信息**页面。

  4. 单击**静默警报**,以打开带有为该警报配置的默认配置的**静默警报**页面。

  5. 可选:更改静默的默认配置详细信息。

    保存静默前必须添加注释。

  6. 要保存静默,请单击**静默**。

要在**管理员**视角下通过创建静默配置来静默一组警报

  1. 在 Red Hat OpenShift Service on AWS Web 控制台中,转到**观察** → **警报** → **静默**。

  2. 单击**创建静默**。

  3. 在**创建静默**页面上,设置警报的计划、持续时间和标签详细信息。

    保存静默前必须添加注释。

  4. 要为与您输入的标签匹配的警报创建静默,请单击**静默**。

要在**开发者**视角下通过创建静默配置来静默一组警报

  1. 在 Red Hat OpenShift Service on AWS Web 控制台中,转到**观察** → **** → **静默**。

  2. 单击**创建静默**。

  3. 在**创建静默**页面上,设置警报的持续时间和标签详细信息。

    保存静默前必须添加注释。

  4. 要为与您输入的标签匹配的警报创建静默,请单击**静默**。

编辑静默

您可以编辑静默,这会使现有静默失效并创建一个具有更改配置的新静默。

先决条件
  • 如果您是集群管理员,则可以作为具有 `dedicated-admin` 角色的用户访问集群。

  • 如果您是非管理员用户,您可以以以下用户角色访问集群

    • cluster-monitoring-view 集群角色,允许您访问 Alertmanager。

    • monitoring-alertmanager-edit 角色,允许您在 Web 控制台的**管理员**视角下创建和静默警报。

    • monitoring-rules-edit 集群角色,允许您在 Web 控制台的**开发者**视角下创建和静默警报。

步骤

要在**管理员**视角下编辑静默

  1. 转到**观察** → **警报** → **静默**。

  2. 对于要修改的静默,单击kebab 并选择**编辑静默**。

    或者,您可以在静默的**静默详细信息**页面上单击**操作**并选择**编辑静默**。

  3. 在**编辑静默**页面上,进行更改并单击**静默**。这样做会使现有静默失效,并创建一个具有更新配置的新静默。

要在**开发者**视角下编辑静默

  1. 转到**观察** → **** → **静默**。

  2. 对于要修改的静默,单击kebab 并选择**编辑静默**。

    或者,您可以在静默的**静默详细信息**页面上单击**操作**并选择**编辑静默**。

  3. 在**编辑静默**页面上,进行更改并单击**静默**。这样做会使现有静默失效,并创建一个具有更新配置的新静默。

使静默失效

您可以使单个静默或多个静默失效。使静默失效会永久停用它。

您无法删除已失效的静默警报。超过 120 小时的已失效静默会被垃圾回收。

先决条件
  • 如果您是集群管理员,则可以作为具有 `dedicated-admin` 角色的用户访问集群。

  • 如果您是非管理员用户,您可以以以下用户角色访问集群

    • cluster-monitoring-view 集群角色,允许您访问 Alertmanager。

    • monitoring-alertmanager-edit 角色,允许您在 Web 控制台的**管理员**视角下创建和静默警报。

    • monitoring-rules-edit 集群角色,允许您在 Web 控制台的**开发者**视角下创建和静默警报。

步骤

要在**管理员**视角下使静默失效

  1. 转到**观察** → **警报** → **静默**。

  2. 对于要使失效的静默,选择相应行中的复选框。

  3. 单击**使 1 个静默失效**以使单个选定的静默失效,或单击**使 个静默失效**以使多个选定的静默失效,其中 是您选择的静默数量。

    或者,要使单个静默失效,您可以在静默的**静默详细信息**页面上单击**操作**并选择**使静默失效**。

要在**开发者**视角下使静默失效

  1. 转到**观察** → **** → **静默**。

  2. 对于要使失效的静默,选择相应行中的复选框。

  3. 单击**使 1 个静默失效**以使单个选定的静默失效,或单击**使 个静默失效**以使多个选定的静默失效,其中 是您选择的静默数量。

    或者,要使单个静默失效,您可以在静默的**静默详细信息**页面上单击**操作**并选择**使静默失效**。

管理用户定义项目的警报规则

Red Hat OpenShift Service on AWS 监控附带一组默认警报规则。作为集群管理员,您可以查看默认警报规则。

在 Red Hat OpenShift Service on AWS 中,您可以在用户定义的项目中创建、查看、编辑和删除警报规则。

管理用户定义项目的警报规则仅在 Red Hat OpenShift Service on AWS 4.11 及更高版本中可用。

警报规则注意事项
  • 默认警报规则专门用于 Red Hat OpenShift Service on AWS 集群。

  • 一些警报规则有意具有相同的名称。它们会使用不同的阈值、不同的严重性或两者都不同来发送关于同一事件的警报。

  • 抑制规则会阻止在也触发较高严重性警报时触发较低严重性警报的通知。

优化用户定义项目的警报

创建警报规则时,您可以考虑以下建议来优化您自己项目的警报

  • **尽量减少为项目创建的警报规则的数量**。创建通知您影响您的条件的警报规则。如果您为不影响您的条件生成许多警报,则很难注意到相关警报。

  • **为症状而不是原因创建警报规则**。创建无论根本原因如何都会通知您条件的警报规则。然后可以调查原因。如果每个规则都只与特定原因相关,则您将需要更多警报规则。然后,一些原因可能会被遗漏。

  • **在编写警报规则之前进行计划**。确定哪些症状对您很重要,以及如果出现这些症状您想采取哪些措施。然后为每个症状构建警报规则。

  • **提供清晰的警报消息**。在警报消息中说明症状和推荐的操作。

  • 在告警规则中包含严重性级别。告警的严重性取决于发生报告的症状时您需要采取的应对措施。例如,如果某个症状需要个人或关键响应团队立即处理,则应触发严重告警。

其他资源

关于为用户定义的项目创建告警规则

如果您为用户定义的项目创建告警规则,请在定义新规则时考虑以下关键行为和重要限制。

  • 用户定义的告警规则可以包含其自身项目公开的指标,以及来自核心平台监控的默认指标。您不能包含来自其他用户定义项目的指标。

    例如,ns1 用户定义项目的告警规则可以使用 ns1 项目公开的指标以及核心平台指标(例如 CPU 和内存指标)。但是,该规则不能包含来自不同的 ns2 用户定义项目的指标。

  • 为了减少延迟并最大限度地减少核心平台监控组件的负载,您可以向规则添加openshift.io/prometheus-rule-evaluation-scope: leaf-prometheus标签。此标签强制仅部署在openshift-user-workload-monitoring项目中的 Prometheus 实例来评估告警规则,并阻止 Thanos Ruler 实例这样做。

    如果告警规则具有此标签,则您的告警规则只能使用用户定义项目公开的那些指标。您根据默认平台指标创建的告警规则可能不会触发告警。

为用户定义的项目创建告警规则

您可以为用户定义的项目创建告警规则。这些告警规则将根据所选指标的值触发告警。

  • 创建告警规则时,即使另一个项目中存在同名规则,也会在其上强制执行项目标签。

  • 为了帮助用户了解告警的影响和原因,请确保您的告警规则包含告警消息和严重性值。

先决条件
  • 您已为用户定义的项目启用了监控。

  • 您已登录为拥有要在其中创建告警规则的项目的monitoring-rules-edit集群角色的用户。

  • 您已安装 OpenShift CLI(oc)。

步骤
  1. 创建告警规则的 YAML 文件。在此示例中,它被称为example-app-alerting-rule.yaml

  2. 向 YAML 文件添加告警规则配置。以下示例创建了一个名为example-alert的新告警规则。当样本服务公开的version指标变为0时,告警规则将触发告警。

    apiVersion: monitoring.coreos.com/v1
    kind: PrometheusRule
    metadata:
      name: example-alert
      namespace: ns1
    spec:
      groups:
      - name: example
        rules:
        - alert: VersionAlert (1)
          for: 1m (2)
          expr: version{job="prometheus-example-app"} == 0 (3)
          labels:
            severity: warning (4)
          annotations:
            message: This is an example alert. (5)
    1 您要创建的告警规则的名称。
    2 条件在触发告警之前应为真的持续时间。
    3 定义新规则的 PromQL 查询表达式。
    4 告警规则分配给告警的严重性。
    5 与告警关联的消息。
  3. 将配置文件应用于集群。

    $ oc apply -f example-app-alerting-rule.yaml
其他资源
  • 请参阅监控概述,了解有关 Red Hat OpenShift Service on AWS 监控架构的详细信息。

访问用户定义项目的告警规则

要列出用户定义项目的告警规则,您必须已为该项目分配了monitoring-rules-view集群角色。

先决条件
  • 您已为用户定义的项目启用了监控。

  • 您已登录为拥有项目monitoring-rules-view集群角色的用户。

  • 您已安装 OpenShift CLI(oc)。

步骤
  1. 列出<project>中的告警规则。

    $ oc -n <project> get prometheusrule
  2. 要列出告警规则的配置,请运行以下命令:

    $ oc -n <project> get prometheusrule <rule> -o yaml

在单个视图中列出所有项目的告警规则

作为dedicated-admin,您可以将 Red Hat OpenShift Service on AWS 的核心和用户定义项目的告警规则一起列在一个视图中。

先决条件
  • 您可以作为拥有dedicated-admin角色的用户访问集群。

  • 您已安装 OpenShift CLI(oc)。

步骤
  1. 在**管理员**视角中,导航到**观察**→**告警**→**告警规则**。

  2. 在**筛选器**下拉菜单中选择**平台**和**用户**来源。

    默认情况下选择**平台**来源。

删除用户定义项目的告警规则

您可以删除用户定义项目的告警规则。

先决条件
  • 您已为用户定义的项目启用了监控。

  • 您已登录为拥有要在其中创建告警规则的项目的monitoring-rules-edit集群角色的用户。

  • 您已安装 OpenShift CLI(oc)。

步骤
  • 要删除<namespace>中的规则<foo>,请运行以下命令:

    $ oc -n <namespace> delete prometheusrule <foo>
其他资源

向外部系统发送通知

在 Red Hat OpenShift Service on AWS 中,可以在告警 UI 中查看触发的告警。默认情况下,告警未配置为发送到任何通知系统。您可以将 Red Hat OpenShift Service on AWS 配置为将告警发送到以下接收器类型:

  • PagerDuty

  • Webhook

  • 电子邮件

  • Slack

  • Microsoft Teams

将告警路由到接收器使您能够在发生故障时向相应的团队发送及时的通知。例如,严重告警需要立即关注,通常会发送给个人或关键响应团队。提供非关键警告通知的告警可以路由到票务系统,以便稍后进行审查。

使用监控告警检查告警是否正常运行

Red Hat OpenShift Service on AWS 监控包括一个持续触发的监控告警。Alertmanager 会重复将监控告警通知发送到已配置的通知提供程序。该提供程序通常配置为在停止接收监控告警时通知管理员。此机制可帮助您快速识别 Alertmanager 和通知提供程序之间的任何通信问题。

为默认平台告警和用户定义告警配置不同的告警接收器

您可以为默认平台告警和用户定义告警配置不同的告警接收器,以确保以下结果:

  • 所有默认平台告警都将发送到负责这些告警的团队拥有的接收器。

  • 所有用户定义的告警都将发送到另一个接收器,以便团队可以只关注平台告警。

您可以使用集群监控操作员添加到所有平台告警的openshift_io_alert_source="platform"标签来实现此目的。

  • 使用openshift_io_alert_source="platform"匹配器来匹配默认平台告警。

  • 使用openshift_io_alert_source!="platform"'openshift_io_alert_source=""'匹配器来匹配用户定义的告警。

如果您已启用专门用于用户定义告警的单独 Alertmanager 实例,则此配置不适用。

为用户定义的项目创建告警路由

如果您是非管理员用户,并且已获得alert-routing-edit集群角色,则可以为用户定义的项目创建或编辑告警路由。

先决条件
  • 已为用户定义的项目启用告警路由。

  • 您已登录为拥有要为其创建告警路由的项目的alert-routing-edit集群角色的用户。

  • 您已安装 OpenShift CLI(oc)。

步骤
  1. 创建告警路由的 YAML 文件。此过程中的示例使用名为example-app-alert-routing.yaml的文件。

  2. 向文件添加AlertmanagerConfig YAML 定义。例如:

    apiVersion: monitoring.coreos.com/v1beta1
    kind: AlertmanagerConfig
    metadata:
      name: example-routing
      namespace: ns1
    spec:
      route:
        receiver: default
        groupBy: [job]
      receivers:
      - name: default
        webhookConfigs:
        - url: https://example.org/post

    对于用户定义的告警规则,用户定义的路由的范围限定为定义资源的命名空间。例如,在命名空间ns1AlertmanagerConfig对象中定义的路由配置仅适用于同一命名空间中的PrometheusRules资源。

  3. 保存文件。

  4. 将资源应用于集群。

    $ oc apply -f example-app-alert-routing.yaml

    配置将自动应用于 Alertmanager Pod。

配置 Alertmanager 发送通知

您可以通过编辑alertmanager-user-workload密钥来配置 Alertmanager 发送用户定义告警的通知。

支持的上一版本 Alertmanager 的所有功能,在 OpenShift Alertmanager 配置中也受支持。要查看支持的上一版本 Alertmanager 的所有配置选项,请参阅 Alertmanager 配置

配置用户定义告警的通知

如果您已启用一个专用于用户定义告警路由的独立 Alertmanager 实例,则可以通过编辑openshift-user-workload-monitoring命名空间中的alertmanager-user-workload密钥来自定义该实例发送通知的位置和方式。

先决条件
  • 您可以作为拥有dedicated-admin角色的用户访问集群。

  • 您已安装 OpenShift CLI(oc)。

步骤
  1. 将当前活动的 Alertmanager 配置打印到alertmanager.yaml文件。

    $ oc -n openshift-user-workload-monitoring get secret alertmanager-user-workload --template='{{ index .data "alertmanager.yaml" }}' | base64 --decode > alertmanager.yaml
  2. 编辑alertmanager.yaml中的配置。

    route:
      receiver: Default
      group_by:
      - name: Default
      routes:
      - matchers:
        - "service = prometheus-example-monitor" (1)
        receiver: <receiver> (2)
    receivers:
    - name: Default
    - name: <receiver>
      <receiver_configuration> (3)
    1 指定标签以匹配您的告警。此示例针对所有具有service="prometheus-example-monitor"标签的告警。
    2 指定要用于告警组的接收器名称。
    3 指定接收器配置。
  3. 应用文件中新的配置。

    $ oc -n openshift-user-workload-monitoring create secret generic alertmanager-user-workload --from-file=alertmanager.yaml --dry-run=client -o=yaml |  oc -n openshift-user-workload-monitoring replace secret --filename=-