×

Red Hat 为集群管理员提供用于收集集群数据、监控和排查问题的工具。

获取支持

获取支持:访问 Red Hat 客户门户网站,查看知识库文章,提交支持案例,并查看其他产品文档和资源。

远程健康监控问题

远程健康监控问题:Red Hat OpenShift Service on AWS 使用 Telemeter Client 和 Insights Operator 收集有关集群的遥测和配置数据,并将其报告给 Red Hat。Red Hat 使用这些数据来了解和解决已连接集群中的问题。Red Hat OpenShift Service on AWS 使用以下方式收集数据和监控健康状况

  • 遥测数据:遥测客户端每隔四分三十秒收集并上传指标值到 Red Hat。Red Hat 使用这些数据来:

    • 监控集群。

    • 推出 Red Hat OpenShift Service on AWS 升级。

    • 改善升级体验。

  • Insights Operator:默认情况下,Red Hat OpenShift Service on AWS 安装并启用 Insights Operator,它每两小时报告一次配置和组件故障状态。Insights Operator 有助于:

    • 主动识别潜在的集群问题。

    • 在 Red Hat OpenShift 集群管理器中提供解决方案和预防措施。

您可以查看遥测信息

如果您已启用远程健康报告,请使用 Insights 识别问题。您可以选择禁用远程健康报告。

问题排查

集群管理员可以监控和排查以下 Red Hat OpenShift Service on AWS 组件问题:

  • 节点问题:集群管理员可以通过查看节点的状态、资源使用情况和配置来验证和排查与节点相关的问题。您可以查询以下内容:

    • 节点上的 Kubelet 状态。

    • 集群节点日志。

  • Operator 问题:集群管理员可以执行以下操作来解决 Operator 问题:

    • 验证 Operator 订阅状态。

    • 检查 Operator Pod 健康状况。

    • 收集 Operator 日志。

  • Pod 问题:集群管理员可以通过查看 Pod 的状态并完成以下操作来排查与 Pod 相关的问题:

    • 查看 Pod 和容器日志。

    • 启动具有 root 访问权限的调试 Pod。

  • 存储问题:当由于失败的节点无法卸载已挂载的卷而无法在新节点上挂载卷时,会发生多附件存储错误。集群管理员可以执行以下操作来解决多附件存储问题:

    • 使用 RWX 卷启用多个附件。

    • 使用 RWO 卷时恢复或删除失败的节点。

  • 监控问题:集群管理员可以按照故障排除页面上的步骤进行监控。如果用户定义项目的指标不可用,或者 Prometheus 正在消耗大量磁盘空间,请检查以下内容:

    • 调查用户定义的指标不可用的原因。

    • 确定 Prometheus 消耗大量磁盘空间的原因。