Red Hat 为集群管理员提供用于收集集群数据、监控和疑难解答的工具。
获取支持:访问 Red Hat 客户门户以查看知识库文章、提交支持案例以及查看其他产品文档和资源。
远程健康监控问题:OpenShift Container Platform 使用 Telemeter Client 和 Insights Operator 收集有关您的集群的遥测和配置数据,并将其报告给 Red Hat。Red Hat 使用此数据来理解和解决 *已连接集群* 中的问题。与已连接集群类似,您可以在受限网络中使用远程健康监控。OpenShift Container Platform 使用以下方法收集数据并监控运行状况
遥测:遥测客户端每四分三十秒收集并上传指标值到 Red Hat。Red Hat 使用此数据来:
监控集群。
推出 OpenShift Container Platform 升级。
改进升级体验。
Insight Operator:默认情况下,OpenShift Container Platform 会安装并启用 Insight Operator,该运算符每两小时报告一次配置和组件故障状态。Insight Operator 有助于:
主动识别潜在的集群问题。
在 Red Hat OpenShift Cluster Manager 中提供解决方案和预防措施。
您可以查看遥测信息。
如果您已启用远程运行状况报告,请使用 Insights 识别问题。您可以选择禁用远程运行状况报告。
收集有关您的集群的数据:Red Hat 建议在打开支持案例时收集调试信息。这有助于 Red Hat 支持进行根本原因分析。集群管理员可以使用以下方法收集有关其集群的数据:
must-gather 工具:使用 must-gather
工具收集有关集群的信息并调试问题。
sosreport:使用 sosreport
工具收集配置详细信息、系统信息和诊断数据以进行调试。
集群 ID:在向 Red Hat 支持提供信息时,获取集群的唯一标识符。
引导节点日志:收集引导节点上的 bootkube.service
journald
单元日志和容器日志以排查引导相关问题。
集群节点日志:收集各个集群节点上的 journald
单元日志和 /var/log
中的日志以排查节点相关问题。
网络跟踪:向 Red Hat 支持提供来自特定 OpenShift Container Platform 集群节点或容器的网络数据包跟踪,以帮助排查网络相关问题。
诊断数据:使用 redhat-support-tool
命令收集有关集群的诊断数据。
集群管理员可以监控和排查以下 OpenShift Container Platform 组件问题:
安装问题:OpenShift Container Platform 安装过程包含多个阶段。您可以执行以下操作
监控安装阶段。
确定安装问题发生在哪一阶段。
调查多个安装问题。
收集失败安装的日志。
节点问题:集群管理员可以通过查看节点的状态、资源使用情况和配置来验证和排除节点相关问题。您可以查询以下内容:
节点上的 Kubelet 状态。
集群节点日志。
CRI-O 问题:集群管理员可以验证每个集群节点上的 CRI-O 容器运行时引擎状态。如果遇到容器运行时问题,请执行以下操作:
收集 CRI-O journald 单元日志。
清理 CRI-O 存储。
操作系统问题:OpenShift Container Platform 运行在 Red Hat Enterprise Linux CoreOS 上。如果遇到操作系统问题,您可以调查内核崩溃过程。请确保以下内容:
启用 kdump。
测试 kdump 配置。
分析核心转储。
网络问题:要排除 Open vSwitch 问题,集群管理员可以执行以下操作:
临时配置 Open vSwitch 日志级别。
永久配置 Open vSwitch 日志级别。
显示 Open vSwitch 日志。
Operator 问题:集群管理员可以执行以下操作来解决 Operator 问题:
验证 Operator 订阅状态。
检查 Operator Pod 健康状况。
收集 Operator 日志。
Pod 问题:集群管理员可以通过查看 Pod 的状态并完成以下操作来排除 Pod 相关问题:
查看 Pod 和容器日志。
启动具有 root 访问权限的调试 Pod。
Source-to-Image 问题:集群管理员可以观察 S2I 阶段以确定 S2I 过程中失败发生的位置。收集以下信息以解决 Source-to-Image (S2I) 问题:
Source-to-Image 诊断数据。
应用程序诊断数据以调查应用程序故障。
存储问题:当由于失败的节点无法卸载已附加的卷而无法在新节点上安装卷时,就会发生多附加存储错误。集群管理员可以执行以下操作来解决多附加存储问题:
使用 RWX 卷启用多个附加。
使用 RWO 卷时恢复或删除失败的节点。
监控问题:集群管理员可以按照故障排除页面上的步骤进行监控。如果用户定义项目的指标不可用,或者 Prometheus 正在消耗大量磁盘空间,请检查以下内容:
调查为什么用户定义的指标不可用。
确定为什么 Prometheus 正在消耗大量磁盘空间。
OpenShift CLI (oc
) 问题:通过提高日志级别来调查 OpenShift CLI (oc
) 问题。