支持概述 | 支持 | OpenShift 容器平台 4.17

获取支持
远程健康监控问题
收集有关您的集群的数据
疑难解答

Red Hat 为集群管理员提供用于收集集群数据、监控和疑难解答的工具。

获取支持

获取支持：访问 Red Hat 客户门户以查看知识库文章、提交支持案例以及查看其他产品文档和资源。

远程健康监控问题

远程健康监控问题：OpenShift Container Platform 使用 Telemeter Client 和 Insights Operator 收集有关您的集群的遥测和配置数据，并将其报告给 Red Hat。Red Hat 使用此数据来理解和解决 *已连接集群* 中的问题。与已连接集群类似，您可以在受限网络中使用远程健康监控。OpenShift Container Platform 使用以下方法收集数据并监控运行状况

遥测：遥测客户端每四分三十秒收集并上传指标值到 Red Hat。Red Hat 使用此数据来：
- 监控集群。
- 推出 OpenShift Container Platform 升级。
- 改进升级体验。
Insight Operator：默认情况下，OpenShift Container Platform 会安装并启用 Insight Operator，该运算符每两小时报告一次配置和组件故障状态。Insight Operator 有助于：
- 主动识别潜在的集群问题。
- 在 Red Hat OpenShift Cluster Manager 中提供解决方案和预防措施。

您可以查看遥测信息。

如果您已启用远程运行状况报告，请使用 Insights 识别问题。您可以选择禁用远程运行状况报告。

收集有关您的集群的数据

收集有关您的集群的数据：Red Hat 建议在打开支持案例时收集调试信息。这有助于 Red Hat 支持进行根本原因分析。集群管理员可以使用以下方法收集有关其集群的数据：

must-gather 工具：使用 must-gather 工具收集有关集群的信息并调试问题。
sosreport：使用 sosreport 工具收集配置详细信息、系统信息和诊断数据以进行调试。
集群 ID：在向 Red Hat 支持提供信息时，获取集群的唯一标识符。
引导节点日志：收集引导节点上的 bootkube.service journald 单元日志和容器日志以排查引导相关问题。
集群节点日志：收集各个集群节点上的 journald 单元日志和 /var/log 中的日志以排查节点相关问题。
网络跟踪：向 Red Hat 支持提供来自特定 OpenShift Container Platform 集群节点或容器的网络数据包跟踪，以帮助排查网络相关问题。
诊断数据：使用 redhat-support-tool 命令收集有关集群的诊断数据。

疑难解答

集群管理员可以监控和排查以下 OpenShift Container Platform 组件问题：

安装问题：OpenShift Container Platform 安装过程包含多个阶段。您可以执行以下操作
- 监控安装阶段。
- 确定安装问题发生在哪一阶段。
- 调查多个安装问题。
- 收集失败安装的日志。
节点问题：集群管理员可以通过查看节点的状态、资源使用情况和配置来验证和排除节点相关问题。您可以查询以下内容：
- 节点上的 Kubelet 状态。
- 集群节点日志。
CRI-O 问题：集群管理员可以验证每个集群节点上的 CRI-O 容器运行时引擎状态。如果遇到容器运行时问题，请执行以下操作：
- 收集 CRI-O journald 单元日志。
- 清理 CRI-O 存储。
操作系统问题：OpenShift Container Platform 运行在 Red Hat Enterprise Linux CoreOS 上。如果遇到操作系统问题，您可以调查内核崩溃过程。请确保以下内容：
- 启用 kdump。
- 测试 kdump 配置。
- 分析核心转储。
网络问题：要排除 Open vSwitch 问题，集群管理员可以执行以下操作：
- 临时配置 Open vSwitch 日志级别。
- 永久配置 Open vSwitch 日志级别。
- 显示 Open vSwitch 日志。
Operator 问题：集群管理员可以执行以下操作来解决 Operator 问题：
- 验证 Operator 订阅状态。
- 检查 Operator Pod 健康状况。
- 收集 Operator 日志。
Pod 问题：集群管理员可以通过查看 Pod 的状态并完成以下操作来排除 Pod 相关问题：
- 查看 Pod 和容器日志。
- 启动具有 root 访问权限的调试 Pod。
Source-to-Image 问题：集群管理员可以观察 S2I 阶段以确定 S2I 过程中失败发生的位置。收集以下信息以解决 Source-to-Image (S2I) 问题：
- Source-to-Image 诊断数据。
- 应用程序诊断数据以调查应用程序故障。
存储问题：当由于失败的节点无法卸载已附加的卷而无法在新节点上安装卷时，就会发生多附加存储错误。集群管理员可以执行以下操作来解决多附加存储问题：
- 使用 RWX 卷启用多个附加。
- 使用 RWO 卷时恢复或删除失败的节点。
监控问题：集群管理员可以按照故障排除页面上的步骤进行监控。如果用户定义项目的指标不可用，或者 Prometheus 正在消耗大量磁盘空间，请检查以下内容：
- 调查为什么用户定义的指标不可用。
- 确定为什么 Prometheus 正在消耗大量磁盘空间。

OpenShift CLI (oc) 问题：通过提高日志级别来调查 OpenShift CLI (oc) 问题。