×

电源监控仅为技术预览功能。技术预览功能不受 Red Hat 生产服务级别协议 (SLA) 的支持,并且可能功能不完整。Red Hat 不建议在生产环境中使用它们。这些功能可让您抢先体验即将推出的产品功能,从而能够在开发过程中测试功能并提供反馈。

有关 Red Hat 技术预览功能的支持范围的更多信息,请参阅 技术预览功能支持范围

您可以通过访问电源监控仪表板或在“观察”选项卡下浏览**指标**,在 OpenShift Container Platform Web 控制台中可视化电源监控指标。

电源监控仪表板概述

有两种类型的电源监控仪表板。两者都提供有关单个集群的功耗指标的不同级别的详细信息

电源监控/概述仪表板

使用此仪表板,您可以观察以下信息:

  • CPU 架构及其电源 (rapl-sysfsrapl-msrestimator) 的聚合视图以及具有此配置的总节点数

  • 集群在过去 24 小时内的总能耗(以千瓦时计)

  • 集群中前 10 个命名空间在过去 24 小时内消耗的电量

  • 详细的节点信息,例如其 CPU 架构和组件电源

这些功能使您可以有效地监控集群的能耗,而无需分别调查每个命名空间。

确保**组件源**列未显示estimator作为电源。

power monitoring component power source
图 1. 以rapl-sysfs作为组件电源的详细节点信息表

如果 Kepler 无法获取硬件功耗指标,则**组件源**列将显示estimator作为电源,这在技术预览中不受支持。如果发生这种情况,则节点的值不准确。

电源监控/命名空间仪表板

此仪表板允许您按命名空间和 Pod 查看指标。您可以观察以下信息:

  • 功耗指标,例如 DRAM 和 PKG 中的消耗

  • 过去一小时的能耗指标,例如核心和非核心组件的 DRAM 和 PKG 中的消耗

此功能使您可以调查关键峰值并轻松识别高消耗的主要根本原因。

集群管理员访问功耗监控仪表盘

您可以通过 OpenShift Container Platform Web 控制台的**管理员**视角访问功耗监控仪表盘。

先决条件
  • 您可以访问 OpenShift Container Platform Web 控制台。

  • 您已以具有cluster-admin角色的用户身份登录。

  • 您已安装功耗监控 Operator。

  • 您已在集群中部署 Kepler。

  • 您已为用户定义的项目启用监控。

步骤
  1. 在 Web 控制台的**管理员**视角中,转至**监控** → **仪表盘**。

  2. 从**仪表盘**下拉列表中,选择您要查看的功耗监控仪表盘

    • 功耗监控 / 概述

    • 功耗监控 / 命名空间

开发者访问功耗监控仪表盘

您可以通过 OpenShift Container Platform Web 控制台的**开发者**视角访问功耗监控仪表盘。

先决条件
  • 您可以访问 OpenShift Container Platform Web 控制台。

  • 您可以以开发者或用户身份访问集群。

  • 您已安装功耗监控 Operator。

  • 您已在集群中部署 Kepler。

  • 您已为用户定义的项目启用监控。

  • 您对部署 Kepler 的命名空间openshift-power-monitoring具有view权限。

步骤
  1. 在 Web 控制台的**开发者**视角中,转至**监控** → **仪表盘**。

  2. 从**仪表盘**下拉列表中,选择您要查看的功耗监控仪表盘

    • 功耗监控 / 概述

功耗监控指标概述

功耗监控 Operator 公开了以下指标,您可以使用 OpenShift Container Platform Web 控制台的**监控** → **指标**选项卡查看这些指标。

此公开指标列表并非最终版本。在未来的版本中,可能会添加或删除指标。

表 1. 功耗监控 Operator 指标
指标名称 描述

kepler_container_joules_total

容器的 CPU、DRAM 和其他主机组件的聚合包或套接字能耗。

kepler_container_core_joules_total

容器使用的 CPU 内核的总能耗。如果系统可以访问RAPL_指标,则此指标反映的是 RAPL 电源计划 0 (PP0) 的比例容器能耗,即套接字中所有 CPU 内核消耗的能量。

kepler_container_dram_joules_total

容器的 DRAM 总能耗。

kepler_container_uncore_joules_total

容器使用的非核心组件的累积能耗。组件数量可能因系统而异。非核心指标是特定于处理器型号的,某些服务器 CPU 上可能不可用。

kepler_container_package_joules_total

容器使用的 CPU 套接字消耗的累积能量。它包括所有核心和非核心组件。

kepler_container_other_joules_total

容器使用的主机组件(不包括 CPU 和 DRAM)的累积能耗。通常,此指标是 ACPI 主机的能耗。

kepler_container_bpf_cpu_time_us_total

使用 BPF 追踪的容器使用的总 CPU 时间。

kepler_container_cpu_cycles_total

使用硬件计数器的容器使用的总 CPU 周期数。CPU 周期数是与 CPU 频率直接相关的指标。在处理器以固定频率运行的系统上,CPU 周期数和总 CPU 时间大致相等。在处理器以不同频率运行的系统上,CPU 周期数和总 CPU 时间的值不同。

kepler_container_cpu_instructions_total

使用硬件计数器的容器使用的总 CPU 指令数。CPU 指令数是一个衡量 CPU 使用率的指标。

kepler_container_cache_miss_total

使用硬件计数器的容器发生的总缓存未命中次数。

kepler_container_cgroupfs_cpu_usage_us_total

从控制组统计信息读取的容器使用的总 CPU 时间。

kepler_container_cgroupfs_memory_usage_bytes_total

从控制组统计信息读取的容器使用的总内存(字节)。

kepler_container_cgroupfs_system_cpu_usage_us_total

从控制组统计信息读取的容器在内核空间使用的总 CPU 时间。

kepler_container_cgroupfs_user_cpu_usage_us_total

从控制组统计信息读取的容器在用户空间使用的总 CPU 时间。

kepler_container_bpf_net_tx_irq_total

使用 BPF 追踪的容器传输到网卡的数据包总数。

kepler_container_bpf_net_rx_irq_total

使用 BPF 追踪的容器从网卡接收的数据包总数。

kepler_container_bpf_block_irq_total

使用 BPF 追踪的容器的块 I/O 调用总数。

kepler_node_info

节点元数据,例如节点 CPU 架构。

kepler_node_core_joules_total

节点上运行的所有容器和操作系统使用的 CPU 内核的总能耗。

kepler_node_uncore_joules_total

节点上运行的所有容器和操作系统使用的非核心组件的累积能耗。组件数量可能因系统而异。

kepler_node_dram_joules_total

节点上运行的所有容器和操作系统的 DRAM 总能耗。

kepler_node_package_joules_total

节点上运行的所有容器和操作系统使用的 CPU 套接字消耗的累积能量。它包括所有核心和非核心组件。

kepler_node_other_host_components_joules_total

节点上运行的所有容器和操作系统使用的主机组件(不包括 CPU 和 DRAM)的累积能耗。通常,此指标是 ACPI 主机的能耗。

kepler_node_platform_joules_total

主机的总能耗。通常,此指标是来自 Redfish BMC 或 ACPI 的主机能耗。

kepler_node_energy_stat

来自使用在模型服务器中使用的容器资源利用率控制组指标标记的节点的多个指标。

kepler_node_accelerator_intel_qat

特定节点上 Intel QAT 加速器的利用率。如果系统包含 Intel QAT,Kepler 可以通过遥测计算节点 QAT 的利用率。