×

在 OpenShift Dedicated 中,告警 UI 允许您管理告警、静默和告警规则。

  • 告警规则。告警规则包含一组条件,这些条件概述了集群中的特定状态。当这些条件为真时,将触发告警。可以为告警规则分配一个严重性级别,该级别定义了告警的路由方式。

  • 告警。当告警规则中定义的条件为真时,将触发告警。告警提供通知,说明 OpenShift Dedicated 集群中出现了一组情况。

  • 静默。可以将静默应用于告警,以防止在告警条件为真时发送通知。在解决问题时,您可以在初始通知后静默告警。

告警 UI 中可用的告警、静默和告警规则与您有权访问的项目相关。例如,如果您以具有 `cluster-admin` 角色的用户身份登录,则可以访问所有告警、静默和告警规则。

在管理员和开发者视角中访问告警 UI

可以通过 OpenShift Dedicated Web 控制台的管理员视角和开发者视角访问告警 UI。

  • 管理员视角中,转到监控告警。此视角中告警 UI 的三个主要页面是告警静默告警规则页面。

  • 开发者视角中,转到监控<项目名称>告警。在此视角中,告警、静默和告警规则都从告警页面管理。告警页面中显示的结果特定于所选项目。

开发者视角中,您可以从项目:<项目名称> 列表中选择您有权访问的核心 OpenShift Dedicated 项目和用户定义的项目。但是,如果您未以集群管理员身份登录,则不会显示与核心 OpenShift Dedicated 项目相关的告警、静默和告警规则。

搜索和过滤告警、静默和告警规则

您可以过滤在告警 UI 中显示的告警、静默和告警规则。本节提供了每个可用过滤选项的说明。

了解告警过滤器

管理员视角中,告警 UI 中的告警页面提供与默认 OpenShift Dedicated 项目和用户定义的项目相关的告警的详细信息。该页面包括每个告警的严重性、状态和来源的摘要。还显示告警进入当前状态的时间。

您可以按告警状态、严重性和来源进行过滤。默认情况下,仅显示处于触发状态的平台告警。以下是每个告警过滤选项的说明

  • 状态过滤器

    • 触发。由于告警条件为真且可选的 `for` 时长已过,因此告警正在触发。只要条件为真,告警就会继续触发。

    • 待处理。告警处于活动状态,但正在等待告警规则中指定的时间段后才能触发。

    • 静默。告警现在已静默一段时间。静默根据您定义的一组标签选择器临时静默告警。不会为与所有列出的值或正则表达式匹配的告警发送通知。

  • 严重性过滤器

    • 严重。触发警报的条件可能会造成严重影响。警报触发后需要立即处理,通常会通知个人或关键响应团队。

    • 警告。警报提供有关可能需要关注以防止问题发生的警告通知。警告通常会路由到票务系统以供非立即审查。

    • 信息。此警报仅供参考。

    • 。此警报未定义严重性。

    • 您还可以为与用户定义项目相关的警报创建自定义严重性定义。

  • 来源过滤器

    • 平台。平台级警报仅与默认的 OpenShift Dedicated 项目相关。这些项目提供 OpenShift Dedicated 的核心功能。

    • 用户。用户警报与用户定义的项目相关。这些警报由用户创建,并且可以自定义。用户定义的工作负载监控可以在安装后启用,以提供对您自己工作负载的可观察性。

了解静默过滤器

管理员视角中,警报 UI 中的静默页面提供有关应用于默认 OpenShift Dedicated 和用户定义项目中警报的静默的详细信息。该页面包括每个静默状态的摘要以及静默结束的时间。

您可以按静默状态进行筛选。默认情况下,仅显示活动待处理的静默。以下是每个静默状态过滤器选项的说明

  • 状态过滤器

    • 活动。静默处于活动状态,警报将被静默,直到静默过期。

    • 待处理。静默已安排,但尚未生效。

    • 已过期。静默已过期,如果警报的条件为真,则会发送通知。

了解警报规则过滤器

管理员视角中,警报 UI 中的警报规则页面提供有关与默认 OpenShift Dedicated 和用户定义项目相关的警报规则的详细信息。该页面包括每个警报规则的状态、严重性和来源的摘要。

您可以按警报状态、严重性和来源筛选警报规则。默认情况下,仅显示平台警报规则。以下是每个警报规则过滤选项的说明

  • 警报状态过滤器

    • 触发。由于告警条件为真且可选的 `for` 时长已过,因此告警正在触发。只要条件为真,告警就会继续触发。

    • 待处理。告警处于活动状态,但正在等待告警规则中指定的时间段后才能触发。

    • 静默。告警现在已静默一段时间。静默根据您定义的一组标签选择器临时静默告警。不会为与所有列出的值或正则表达式匹配的告警发送通知。

    • 未触发。警报未触发。

  • 严重性过滤器

    • 严重。警报规则中定义的条件可能会造成严重影响。如果为真,则这些条件需要立即处理。与该规则相关的警报通常会通知个人或关键响应团队。

    • 警告。警报规则中定义的条件可能需要关注以防止问题发生。与该规则相关的警报通常会路由到票务系统以供非立即审查。

    • 信息。警报规则仅提供信息性警报。

    • 。警报规则未定义严重性。

    • 您还可以为与用户定义项目相关的警报规则创建自定义严重性定义。

  • 来源过滤器

    • 平台。平台级警报规则仅与默认的 OpenShift Dedicated 项目相关。这些项目提供 OpenShift Dedicated 的核心功能。

    • 用户。用户定义的工作负载警报规则与用户定义的项目相关。这些警报规则由用户创建,并且可以自定义。用户定义的工作负载监控可以在安装后启用,以提供对您自己工作负载的可观察性。

在开发者视角中搜索和过滤警报、静默和警报规则

开发者视角中,警报 UI 中的警报页面提供与所选项目相关的警报和静默的组合视图。为每个显示的警报提供指向管理警报规则的链接。

在此视图中,您可以按警报状态和严重性进行筛选。如果您有权访问该项目,则默认情况下会显示所选项目中的所有警报。这些过滤器与管理员视角中描述的过滤器相同。

获取有关警报、静默和警报规则的信息

警报 UI 提供有关警报及其管理警报规则和静默的详细信息。

先决条件
  • 您具有作为开发者或具有查看您正在查看其警报的项目的权限的用户访问集群的权限。

步骤

要在管理员视角中获取有关警报的信息:

  1. 打开 OpenShift Dedicated Web 控制台,然后转到监控警报警报页面。

  2. 可选:使用搜索列表中的名称字段按名称搜索警报。

  3. 可选:通过在过滤器列表中选择过滤器来按状态、严重性和来源过滤警报。

  4. 可选:通过单击名称严重性状态来源列标题中的一个或多个来排序警报。

  5. 单击警报的名称以查看其警报详情页面。该页面包括一个图表,该图表显示警报时间序列数据。它还提供有关警报的以下信息

    • 警报说明

    • 与警报关联的消息

    • 附加到警报的标签

    • 指向其管理警报规则的链接

    • 警报的静默(如果存在)

要在管理员视角中获取有关静默的信息:

  1. 转到监控警报静默页面。

  2. 可选:使用按名称搜索字段按名称过滤静默。

  3. 可选:通过在过滤器列表中选择过滤器来按状态过滤静默。默认情况下,将应用活动待处理过滤器。

  4. 可选:通过单击名称触发警报状态创建者列标题中的一个或多个来排序静默。

  5. 选择静默的名称以查看其静默详情页面。该页面包括以下详细信息

    • 警报规范

    • 开始时间

    • 结束时间

    • 静默状态

    • 触发警报的数量和列表

要在管理员视角中获取有关警报规则的信息:

  1. 转到监控警报警报规则页面。

  2. 可选:通过在过滤器列表中选择过滤器来按状态、严重性和来源过滤警报规则。

  3. 可选:通过单击名称严重性警报状态来源列标题中的一个或多个来排序警报规则。

  4. 选择警报规则的名称以查看其警报规则详情页面。该页面提供有关警报规则的以下详细信息

    • 告警规则名称、严重性和描述。

    • 定义告警触发条件的表达式。

    • 条件需要持续为真的时间长度,才能触发告警。

    • 每个受告警规则管理的告警的图表,显示触发告警的值。

    • 受告警规则管理的所有告警的表格。

在开发者视角获取关于告警、静默和告警规则的信息:

  1. 进入 **监控** → **<项目名称>** → **告警** 页面。

  2. 查看告警、静默或告警规则的详细信息

    • 可以通过点击告警名称旁边的大于号 (**>**) 并从列表中选择告警来查看 **告警详细信息**。

    • 可以通过点击 **告警详细信息** 页面的 **被静默** 部分中的静默来查看 **静默详细信息**。**静默详细信息** 页面包含以下信息

      • 警报规范

      • 开始时间

      • 结束时间

      • 静默状态

      • 触发警报的数量和列表

    • 可以通过点击告警页面中告警旁边的 kebab 菜单,然后点击 **查看告警规则** 来查看 **告警规则详细信息**。

在 **开发者** 视角中,只显示与所选项目相关的告警、静默和告警规则。

其他资源

管理静默

您可以在 OpenShift Dedicated Web 控制台中,在 **管理员** 和 **开发者** 视角下为告警创建静默。创建静默后,当告警触发时,您将不会收到通知。

在您收到初始告警通知,并且您不想在解决导致告警触发的根本问题期间收到进一步通知的情况下,创建静默非常有用。

创建静默时,必须指定它是立即生效还是稍后生效。还必须设置静默过期后的持续时间。

创建静默后,您可以查看、编辑和使其过期。

创建静默后,它们会在 Alertmanager Pod 之间复制。但是,如果您没有为 Alertmanager 配置持久性存储,则静默可能会丢失。例如,如果所有 Alertmanager Pod 同时重启,就会发生这种情况。

其他资源

静默告警

您可以静默特定告警,或静默与您定义的规范匹配的告警。

先决条件
  • 如果您是集群管理员,则您可以作为具有 `dedicated-admin` 角色的用户访问集群。

  • 如果您是非管理员用户,则您可以作为具有以下用户角色的用户访问集群:

    • `cluster-monitoring-view` 集群角色,允许您访问 Alertmanager。

    • `monitoring-alertmanager-edit` 角色,允许您在 Web 控制台的 **管理员** 视角下创建和静默告警。

    • `monitoring-rules-edit` 集群角色,允许您在 Web 控制台的 **开发者** 视角下创建和静默告警。

步骤

要在 **管理员** 视角下静默特定告警

  1. 在 OpenShift Dedicated Web 控制台中,进入 **监控** → **告警** → **告警**。

  2. 对于要静默的告警,点击 kebab 并选择 **静默告警** 以打开具有所选告警的默认配置的 **静默告警** 页面。

  3. 可选:更改静默的默认配置详细信息。

    保存静默前必须添加注释。

  4. 要保存静默,请点击 **静默**。

要在 **开发者** 视角下静默特定告警

  1. 在 OpenShift Dedicated Web 控制台中,进入 **监控** → **<项目名称>** → **告警**。

  2. 如有必要,通过选择告警名称旁边的大于号 (**>**) 来展开告警的详细信息。

  3. 点击展开视图中的告警消息,打开该告警的 **告警详细信息** 页面。

  4. 点击 **静默告警** 以打开具有告警默认配置的 **静默告警** 页面。

  5. 可选:更改静默的默认配置详细信息。

    保存静默前必须添加注释。

  6. 要保存静默,请点击 **静默**。

要在 **管理员** 视角下通过创建静默配置来静默一组告警

  1. 在 OpenShift Dedicated Web 控制台中,进入 **监控** → **告警** → **静默**。

  2. 点击 **创建静默**。

  3. 在 **创建静默** 页面上,设置告警的计划、持续时间和标签详细信息。

    保存静默前必须添加注释。

  4. 要为与您输入的标签匹配的告警创建静默,请点击 **静默**。

要在 **开发者** 视角下通过创建静默配置来静默一组告警

  1. 在 OpenShift Dedicated Web 控制台中,进入 **监控** → **<项目名称>** → **静默**。

  2. 点击 **创建静默**。

  3. 在 **创建静默** 页面上,设置告警的持续时间和标签详细信息。

    保存静默前必须添加注释。

  4. 要为与您输入的标签匹配的告警创建静默,请点击 **静默**。

编辑静默

您可以编辑静默,这会使现有静默过期并创建一个具有更改配置的新静默。

先决条件
  • 如果您是集群管理员,则您可以作为具有 `dedicated-admin` 角色的用户访问集群。

  • 如果您是非管理员用户,则您可以作为具有以下用户角色的用户访问集群:

    • `cluster-monitoring-view` 集群角色,允许您访问 Alertmanager。

    • `monitoring-alertmanager-edit` 角色,允许您在 Web 控制台的 **管理员** 视角下创建和静默告警。

    • `monitoring-rules-edit` 集群角色,允许您在 Web 控制台的 **开发者** 视角下创建和静默告警。

步骤

要在 **管理员** 视角下编辑静默

  1. 进入 **监控** → **告警** → **静默**。

  2. 对于要修改的静默,点击 kebab 并选择 **编辑静默**。

    或者,您可以在静默的 **静默详细信息** 页面上点击 **操作** 并选择 **编辑静默**。

  3. 在 **编辑静默** 页面上,进行更改并点击 **静默**。这样做会使现有静默过期并创建一个具有更新配置的新静默。

要在 **开发者** 视角下编辑静默

  1. 进入 **监控** → **<项目名称>** → **静默**。

  2. 对于要修改的静默,点击 kebab 并选择 **编辑静默**。

    或者,您可以在静默的 **静默详细信息** 页面上点击 **操作** 并选择 **编辑静默**。

  3. 在 **编辑静默** 页面上,进行更改并点击 **静默**。这样做会使现有静默过期并创建一个具有更新配置的新静默。

使静默过期

您可以使单个静默或多个静默过期。使静默过期会永久停用它。

您不能删除已过期、已静默的告警。超过 120 小时的过期静默会被垃圾收集。

先决条件
  • 如果您是集群管理员,则您可以作为具有 `dedicated-admin` 角色的用户访问集群。

  • 如果您是非管理员用户,则您可以作为具有以下用户角色的用户访问集群:

    • `cluster-monitoring-view` 集群角色,允许您访问 Alertmanager。

    • `monitoring-alertmanager-edit` 角色,允许您在 Web 控制台的 **管理员** 视角下创建和静默告警。

    • `monitoring-rules-edit` 集群角色,允许您在 Web 控制台的 **开发者** 视角下创建和静默告警。

步骤

要在 **管理员** 视角下使静默过期

  1. 进入 **监控** → **告警** → **静默**。

  2. 要过期静默(单数或复数),请选中相应行的复选框。

  3. 单击**过期 1 个静默**以过期单个选定的静默,或单击**过期 <n> 个静默**以过期多个选定的静默,其中 <n> 为您选择的静默数量。

    或者,要过期单个静默,您可以单击**操作**,然后在静默的**静默详细信息**页面上选择**过期静默**。

要在**开发者**视角下过期静默

  1. 进入 **监控** → **<项目名称>** → **静默**。

  2. 要过期静默(单数或复数),请选中相应行的复选框。

  3. 单击**过期 1 个静默**以过期单个选定的静默,或单击**过期 <n> 个静默**以过期多个选定的静默,其中 <n> 为您选择的静默数量。

    或者,要过期单个静默,您可以单击**操作**,然后在静默的**静默详细信息**页面上选择**过期静默**。

管理用户定义项目的告警规则

OpenShift Dedicated 监控附带一组默认告警规则。作为集群管理员,您可以查看默认告警规则。

在 OpenShift Dedicated 中,您可以创建、查看、编辑和删除用户定义项目中的告警规则。

管理用户定义项目的告警规则仅在 OpenShift Dedicated 4.11 及更高版本中可用。

告警规则注意事项
  • 默认告警规则专门用于 OpenShift Dedicated 集群。

  • 一些告警规则故意使用相同的名称。它们使用不同的阈值、不同的严重性或两者兼而有之来发送关于同一事件的告警。

  • 抑制规则可阻止在也触发更高严重性告警时触发较低严重性告警的通知。

优化用户定义项目的告警

您可以通过在创建告警规则时考虑以下建议来优化您自己项目的告警

  • **尽量减少为项目创建的告警规则数量**。创建可通知您影响您的状况的告警规则。如果您为不影响您的状况生成许多告警,则更难注意到相关告警。

  • **为症状而不是原因创建告警规则**。创建无论根本原因如何都能通知您状况的告警规则。然后可以调查原因。如果每个规则只与特定原因相关,则您将需要更多告警规则。然后,一些原因可能会被错过。

  • **在编写告警规则之前进行规划**。确定哪些症状对您很重要,以及如果这些症状发生您想采取什么措施。然后为每个症状构建一个告警规则。

  • **提供清晰的告警消息**。在告警消息中说明症状和建议的操作。

  • **在告警规则中包含严重性级别**。告警的严重性取决于如果报告的症状发生您需要如何做出反应。例如,如果症状需要个人或关键响应团队立即关注,则应触发严重告警。

其他资源

关于为用户定义项目创建告警规则

如果您为用户定义的项目创建告警规则,请在定义新规则时考虑以下关键行为和重要限制

  • 除了核心平台监控的默认指标外,用户定义的告警规则还可以包含其自身项目公开的指标。您不能包含来自另一个用户定义项目的指标。

    例如,ns1 用户定义项目的告警规则可以使用 ns1 项目公开的指标以及核心平台指标(例如 CPU 和内存指标)。但是,该规则不能包含来自不同的 ns2 用户定义项目的指标。

  • 为了减少延迟并最大限度地减少对核心平台监控组件的负载,您可以向规则添加openshift.io/prometheus-rule-evaluation-scope: leaf-prometheus标签。此标签强制仅部署在openshift-user-workload-monitoring项目中的 Prometheus 实例来评估告警规则,并防止 Thanos Ruler 实例这样做。

    如果告警规则具有此标签,则您的告警规则只能使用用户定义项目公开的那些指标。您基于默认平台指标创建的告警规则可能不会触发告警。

创建用户定义项目的告警规则

您可以为用户定义的项目创建告警规则。这些告警规则将根据所选指标的值触发告警。

  • 创建告警规则时,即使另一个项目中存在名称相同的规则,也会对其强制执行项目标签。

  • 为了帮助用户理解告警的影响和原因,请确保您的告警规则包含告警消息和严重性值。

先决条件
  • 您已为用户定义的项目启用监控。

  • 您以具有要在其中创建告警规则的项目的monitoring-rules-edit集群角色的用户身份登录。

  • 您已安装 OpenShift CLI (oc)。

步骤
  1. 创建告警规则的 YAML 文件。在此示例中,它被称为example-app-alerting-rule.yaml

  2. 将告警规则配置添加到 YAML 文件。以下示例创建了一个名为example-alert的新告警规则。当示例服务公开的version指标变为0时,告警规则将触发告警。

    apiVersion: monitoring.coreos.com/v1
    kind: PrometheusRule
    metadata:
      name: example-alert
      namespace: ns1
    spec:
      groups:
      - name: example
        rules:
        - alert: VersionAlert (1)
          for: 1m (2)
          expr: version{job="prometheus-example-app"} == 0 (3)
          labels:
            severity: warning (4)
          annotations:
            message: This is an example alert. (5)
    1 您要创建的告警规则的名称。
    2 在触发告警之前,条件应为真的持续时间。
    3 定义新规则的 PromQL 查询表达式。
    4 告警规则分配给告警的严重性。
    5 与告警关联的消息。
  3. 将配置文件应用于集群

    $ oc apply -f example-app-alerting-rule.yaml
其他资源
  • 有关 OpenShift Dedicated 监控架构的详细信息,请参阅监控概述

访问用户定义项目的告警规则

要列出用户定义项目的告警规则,您必须已为该项目分配monitoring-rules-view集群角色。

先决条件
  • 您已为用户定义的项目启用监控。

  • 您以具有项目monitoring-rules-view集群角色的用户身份登录。

  • 您已安装 OpenShift CLI (oc)。

步骤
  1. 要列出<project>中的告警规则

    $ oc -n <project> get prometheusrule
  2. 要列出告警规则的配置,请运行以下命令:

    $ oc -n <project> get prometheusrule <rule> -o yaml

在单个视图中列出所有项目的告警规则

作为dedicated-admin,您可以一起在单个视图中列出核心 OpenShift Dedicated 和用户定义项目的告警规则。

先决条件
  • 您可以作为具有dedicated-admin角色的用户访问集群。

  • 您已安装 OpenShift CLI (oc)。

步骤
  1. 在**管理员**视角中,导航到**监控** → **告警** → **告警规则**。

  2. 在**筛选器**下拉菜单中选择**平台**和**用户**来源。

    默认情况下选择**平台**来源。

删除用户定义项目的告警规则

您可以删除用户定义项目的告警规则。

先决条件
  • 您已为用户定义的项目启用监控。

  • 您以具有要在其中创建告警规则的项目的monitoring-rules-edit集群角色的用户身份登录。

  • 您已安装 OpenShift CLI (oc)。

步骤
  • 要删除<namespace>中的规则<foo>,请运行以下命令:

    $ oc -n <namespace> delete prometheusrule <foo>
其他资源

将通知发送到外部系统

在 OpenShift Dedicated 中,可以在告警 UI 中查看触发的告警。默认情况下,告警未配置为发送到任何通知系统。您可以将 OpenShift Dedicated 配置为将告警发送到以下接收器类型:

  • PagerDuty

  • Webhook

  • 电子邮件

  • Slack

  • Microsoft Teams

将告警路由到接收器使您能够在发生故障时向相应的团队发送及时的通知。例如,严重告警需要立即关注,通常会发送给个人或关键响应团队。提供非关键警告通知的告警可能会被路由到票务系统以供非立即审查。

使用监控告警检查告警是否正常运行

OpenShift Dedicated 监控包含一个持续触发的监控程序警报。Alertmanager 会重复地将监控程序警报通知发送到已配置的通知提供程序。该提供程序通常配置为在停止接收监控程序警报时通知管理员。此机制可帮助您快速识别 Alertmanager 和通知提供程序之间的任何通信问题。

为默认平台警报和用户定义警报配置不同的警报接收器

您可以为默认平台警报和用户定义警报配置不同的警报接收器,以确保以下结果:

  • 所有默认平台警报都将发送给负责这些警报的团队拥有的接收器。

  • 所有用户定义的警报都将发送到另一个接收器,以便该团队可以只关注平台警报。

您可以通过使用 `openshift_io_alert_source="platform"` 标签来实现此目的,该标签由集群监控操作符添加到所有平台警报中。

  • 使用 `openshift_io_alert_source="platform"` 匹配器匹配默认平台警报。

  • 使用 `openshift_io_alert_source!="platform"` 或 `'openshift_io_alert_source=""'` 匹配器匹配用户定义的警报。

如果您已启用专用于用户定义警报的单独 Alertmanager 实例,则此配置不适用。

创建用户定义项目的警报路由

如果您是非管理员用户,并且已被授予 `alert-routing-edit` 集群角色,则可以为用户定义的项目创建或编辑警报路由。

先决条件
  • 已为用户定义的项目启用警报路由。

  • 您已登录为拥有您想要为其创建警报路由的项目的 `alert-routing-edit` 集群角色的用户。

  • 您已安装 OpenShift CLI (oc)。

步骤
  1. 创建警报路由的 YAML 文件。此过程中的示例使用名为 `example-app-alert-routing.yaml` 的文件。

  2. 向文件中添加 `AlertmanagerConfig` YAML 定义。例如:

    apiVersion: monitoring.coreos.com/v1beta1
    kind: AlertmanagerConfig
    metadata:
      name: example-routing
      namespace: ns1
    spec:
      route:
        receiver: default
        groupBy: [job]
      receivers:
      - name: default
        webhookConfigs:
        - url: https://example.org/post

    对于用户定义的警报规则,用户定义的路由范围限定为定义资源的命名空间。例如,在命名空间 `ns1` 的 `AlertmanagerConfig` 对象中定义的路由配置仅适用于同一命名空间中的 `PrometheusRules` 资源。

  3. 保存文件。

  4. 将资源应用于集群。

    $ oc apply -f example-app-alert-routing.yaml

    配置将自动应用于 Alertmanager Pod。

配置 Alertmanager 发送通知

您可以通过编辑用户定义警报的 `alertmanager-user-workload` 密钥来配置 Alertmanager 发送通知。

支持的上一版本 Alertmanager 的所有功能也支持在 OpenShift Alertmanager 配置中。要检查支持的上一版本 Alertmanager 的所有配置选项,请参见 Alertmanager 配置

配置用户定义警报的通知

如果您已启用专用于用户定义警报路由的单独 Alertmanager 实例,则可以通过编辑 `openshift-user-workload-monitoring` 命名空间中的 `alertmanager-user-workload` 密钥来自定义实例发送通知的位置和方式。

先决条件
  • 您可以作为具有dedicated-admin角色的用户访问集群。

  • 您已安装 OpenShift CLI (oc)。

步骤
  1. 将当前活动的 Alertmanager 配置打印到 `alertmanager.yaml` 文件中。

    $ oc -n openshift-user-workload-monitoring get secret alertmanager-user-workload --template='{{ index .data "alertmanager.yaml" }}' | base64 --decode > alertmanager.yaml
  2. 编辑 `alertmanager.yaml` 中的配置。

    route:
      receiver: Default
      group_by:
      - name: Default
      routes:
      - matchers:
        - "service = prometheus-example-monitor" (1)
        receiver: <receiver> (2)
    receivers:
    - name: Default
    - name: <receiver>
      <receiver_configuration> (3)
    1 指定标签以匹配您的警报。此示例针对具有 `service="prometheus-example-monitor"` 标签的所有警报。
    2 指定要用于警报组的接收器名称。
    3 指定接收器配置。
  3. 应用文件中新的配置。

    $ oc -n openshift-user-workload-monitoring create secret generic alertmanager-user-workload --from-file=alertmanager.yaml --dry-run=client -o=yaml |  oc -n openshift-user-workload-monitoring replace secret --filename=-