当您向 Red Hat 支持提交支持案例时,使用以下工具提供有关 Red Hat OpenShift Service on AWS 和 OpenShift Virtualization 的调试信息将非常有帮助。
Prometheus 是一个时间序列数据库和用于指标的规则评估引擎。Prometheus 将警报发送到 Alertmanager 进行处理。
Alertmanager 服务处理从 Prometheus 收到的警报。Alertmanager 还负责将警报发送到外部通知系统。
有关 Red Hat OpenShift Service on AWS 监控堆栈的信息,请参阅关于 Red Hat OpenShift Service on AWS 监控。
收集有关您的环境的数据可最大限度地减少分析和确定根本原因所需的时间。
将 Prometheus 指标数据的保留时间设置为至少七天。
配置 Alertmanager 以捕获相关警报并将警报通知发送到专用邮箱,以便可以在集群外部查看和保存它们。
记录受影响节点和虚拟机的确切数量。
收集有关故障虚拟机 (VM) 的数据可最大限度地减少分析和确定根本原因所需的时间。
Linux 虚拟机:安装最新的 QEMU 访客代理。
Windows 虚拟机
记录 Windows 修补程序更新详细信息。
如果启用了远程桌面协议 (RDP),请使用桌面查看器连接以确定连接软件是否存在问题。
收集在重新启动故障虚拟机之前的屏幕截图。
从虚拟机收集内存转储,在尝试补救措施之前。
记录故障虚拟机共有的因素。例如,虚拟机具有相同的宿主或网络。