×

Red Hat 为集群管理员提供用于收集集群数据、监控和疑难解答的工具。

获取支持

获取支持:访问 Red Hat 客户门户以查看知识库文章、提交支持案例以及查看其他产品文档和资源。

远程健康监控问题

远程健康监控问题:OpenShift Container Platform 使用 Telemeter Client 和 Insights Operator 收集有关您的集群的遥测和配置数据,并将其报告给 Red Hat。Red Hat 使用此数据来理解和解决 *已连接集群* 中的问题。与已连接集群类似,您可以在受限网络中使用远程健康监控。OpenShift Container Platform 使用以下方法收集数据并监控运行状况

  • 遥测:遥测客户端每四分三十秒收集并上传指标值到 Red Hat。Red Hat 使用此数据来:

    • 监控集群。

    • 推出 OpenShift Container Platform 升级。

    • 改进升级体验。

  • Insight Operator:默认情况下,OpenShift Container Platform 会安装并启用 Insight Operator,该运算符每两小时报告一次配置和组件故障状态。Insight Operator 有助于:

    • 主动识别潜在的集群问题。

    • 在 Red Hat OpenShift Cluster Manager 中提供解决方案和预防措施。

您可以查看遥测信息

如果您已启用远程运行状况报告,请使用 Insights 识别问题。您可以选择禁用远程运行状况报告。

收集有关您的集群的数据

收集有关您的集群的数据:Red Hat 建议在打开支持案例时收集调试信息。这有助于 Red Hat 支持进行根本原因分析。集群管理员可以使用以下方法收集有关其集群的数据:

  • must-gather 工具:使用 must-gather 工具收集有关集群的信息并调试问题。

  • sosreport:使用 sosreport 工具收集配置详细信息、系统信息和诊断数据以进行调试。

  • 集群 ID:在向 Red Hat 支持提供信息时,获取集群的唯一标识符。

  • 引导节点日志:收集引导节点上的 bootkube.service journald 单元日志和容器日志以排查引导相关问题。

  • 集群节点日志:收集各个集群节点上的 journald 单元日志和 /var/log 中的日志以排查节点相关问题。

  • 网络跟踪:向 Red Hat 支持提供来自特定 OpenShift Container Platform 集群节点或容器的网络数据包跟踪,以帮助排查网络相关问题。

  • 诊断数据:使用 redhat-support-tool 命令收集有关集群的诊断数据。

疑难解答

集群管理员可以监控和排查以下 OpenShift Container Platform 组件问题:

  • 安装问题:OpenShift Container Platform 安装过程包含多个阶段。您可以执行以下操作

    • 监控安装阶段。

    • 确定安装问题发生在哪一阶段。

    • 调查多个安装问题。

    • 收集失败安装的日志。

  • 节点问题:集群管理员可以通过查看节点的状态、资源使用情况和配置来验证和排除节点相关问题。您可以查询以下内容:

    • 节点上的 Kubelet 状态。

    • 集群节点日志。

  • CRI-O 问题:集群管理员可以验证每个集群节点上的 CRI-O 容器运行时引擎状态。如果遇到容器运行时问题,请执行以下操作:

    • 收集 CRI-O journald 单元日志。

    • 清理 CRI-O 存储。

  • 操作系统问题:OpenShift Container Platform 运行在 Red Hat Enterprise Linux CoreOS 上。如果遇到操作系统问题,您可以调查内核崩溃过程。请确保以下内容:

    • 启用 kdump。

    • 测试 kdump 配置。

    • 分析核心转储。

  • 网络问题:要排除 Open vSwitch 问题,集群管理员可以执行以下操作:

    • 临时配置 Open vSwitch 日志级别。

    • 永久配置 Open vSwitch 日志级别。

    • 显示 Open vSwitch 日志。

  • Operator 问题:集群管理员可以执行以下操作来解决 Operator 问题:

    • 验证 Operator 订阅状态。

    • 检查 Operator Pod 健康状况。

    • 收集 Operator 日志。

  • Pod 问题:集群管理员可以通过查看 Pod 的状态并完成以下操作来排除 Pod 相关问题:

    • 查看 Pod 和容器日志。

    • 启动具有 root 访问权限的调试 Pod。

  • Source-to-Image 问题:集群管理员可以观察 S2I 阶段以确定 S2I 过程中失败发生的位置。收集以下信息以解决 Source-to-Image (S2I) 问题:

    • Source-to-Image 诊断数据。

    • 应用程序诊断数据以调查应用程序故障。

  • 存储问题:当由于失败的节点无法卸载已附加的卷而无法在新节点上安装卷时,就会发生多附加存储错误。集群管理员可以执行以下操作来解决多附加存储问题:

    • 使用 RWX 卷启用多个附加。

    • 使用 RWO 卷时恢复或删除失败的节点。

  • 监控问题:集群管理员可以按照故障排除页面上的步骤进行监控。如果用户定义项目的指标不可用,或者 Prometheus 正在消耗大量磁盘空间,请检查以下内容:

    • 调查为什么用户定义的指标不可用。

    • 确定为什么 Prometheus 正在消耗大量磁盘空间。