×

查看和处理集群通知

集群通知是关于集群状态、健康状况或性能的消息。

集群通知是 Red Hat 站点可靠性工程 (SRE) 与您沟通托管集群健康状况的主要方式。SRE 也可以使用集群通知提示您执行操作,以解决或防止集群问题。

集群所有者和管理员必须定期查看和处理集群通知,以确保集群保持健康和受支持。

您可以在 Red Hat Hybrid Cloud Console 中的集群历史选项卡中查看集群通知。默认情况下,只有集群所有者会收到集群通知电子邮件。如果其他用户需要接收集群通知电子邮件,请将每个用户添加为集群的通知联系人。

集群通知策略

集群通知旨在让您了解集群的健康状况以及影响它的重大事件。

大多数集群通知会自动生成并发送,以确保您能立即了解集群状态的问题或重要更改。

在某些情况下,Red Hat站点可靠性工程 (SRE) 会创建并发送集群通知,以针对复杂问题提供更多上下文和指导。

对于低影响事件、低风险安全更新、例行操作和维护,或 SRE 快速解决的轻微、短暂的问题,不会发送集群通知。

当出现以下情况时,Red Hat 服务会自动发送通知:

  • 远程健康监控或环境验证检查检测到集群中的问题,例如,工作节点磁盘空间不足。

  • 发生重大的集群生命周期事件,例如,计划的维护或升级开始,或者集群操作受到事件影响,但不需要客户干预。

  • 发生重大的集群管理更改,例如,集群所有权或管理控制从一个用户转移到另一个用户。

  • 您的集群订阅发生更改或更新,例如,Red Hat 对订阅条款进行更新或为您的集群提供新功能。

当出现以下情况时,SRE 会创建并发送通知:

  • 事件导致性能下降或中断,影响集群的可用性或性能,例如,您的云提供商出现区域性中断。SRE 会发送后续通知,告知您事件解决进度以及事件解决时间。

  • 在您的集群上检测到安全漏洞、安全漏洞或异常活动。

  • Red Hat 检测到您所做的更改正在创建或可能导致集群不稳定。

  • Red Hat 检测到您的工作负载正在导致集群性能下降或不稳定。

事件和运维管理

本文档详细介绍了 Red Hat 对 OpenShift Dedicated 托管服务的责任。云提供商负责保护运行云提供商提供的服务的硬件基础设施。客户负责客户应用程序数据以及客户为集群网络或虚拟网络配置的任何自定义网络的事件和运维管理。

平台监控

Red Hat 站点可靠性工程师 (SRE) 为所有 OpenShift Dedicated 集群组件、SRE 服务和底层云提供商帐户维护一个集中式监控和警报系统。平台审计日志安全地转发到集中式 SIEM(安全信息和事件监控)系统,这些日志可能会触发对 SRE 团队的已配置警报,并且还会进行人工审查。审计日志在 SIEM 中保留一年。在删除集群时,不会删除给定集群的审计日志。

事件管理

事件是指导致一项或多项 Red Hat 服务性能下降或中断的事件。事件可以由客户或客户体验和参与 (CEE) 成员通过支持案例发起,也可以由集中式监控和警报系统或 SRE 团队成员直接发起。

根据对服务和客户的影响,事件将按严重性进行分类。

Red Hat 管理新事件的一般工作流程:

  1. SRE 第一响应者会收到新事件警报,并开始初步调查。

  2. 初步调查后,事件将分配给事件负责人,后者负责协调恢复工作。

  3. 事件负责人管理所有与恢复相关的沟通和协调,包括任何相关的通知或支持案例更新。

  4. 事件已恢复。

  5. 事件将被记录,并在事件发生后 5 个工作日内进行根本原因分析。

  6. 事件发生后 7 个工作日内,将与客户共享根本原因分析 (RCA) 草稿文档。

备份和恢复

所有 OpenShift Dedicated 集群都使用云提供商快照进行备份。值得注意的是,这并不包括存储在持久卷 (PV) 上的客户数据。所有快照均使用相应的云提供商快照 API 拍摄,并上传到与集群位于同一帐户中的安全对象存储桶(AWS 中为 S3,Google Cloud 中为 GCS)。

组件 快照频率 保留时间 备注

完整的对象存储备份

每日

7 天

这是对所有 Kubernetes 对象(如 etcd)的完整备份。此备份计划中不备份任何 PV。

每周

30 天

完整的对象存储备份

每小时

24 小时

这是对所有 Kubernetes 对象(如 etcd)的完整备份。此备份计划中不备份任何 PV。

节点根卷

从不

N/A

节点被认为是短期存在的。不应在节点的根卷上存储任何关键数据。

  • Red Hat 不承诺任何恢复点目标 (RPO) 或恢复时间目标 (RTO)。

  • 客户有责任定期备份其数据。

  • 客户应部署遵循 Kubernetes 最佳实践且具有高可用性的区域内工作负载的多 AZ 集群。

  • 如果整个云区域不可用,客户必须在不同的区域中安装新集群,并使用其备份数据恢复其应用程序。

集群容量

评估和管理集群容量是 Red Hat 和客户共同承担的责任。Red Hat SRE 负责集群上所有控制平面和基础设施节点的容量。

Red Hat SRE 还在升级期间以及响应集群警报时评估集群容量。集群升级对容量的影响会在升级测试过程中进行评估,以确保新添加到集群的内容不会对容量产生负面影响。在集群升级期间,会添加额外的工作节点,以确保在升级过程中保持总集群容量。

SRE 员工的容量评估也会在集群发出警报后发生,一旦超过某个时间段的使用阈值,就会发出此类警报。此类警报也可能导致向客户发出通知。

变更管理

本节描述了有关如何管理集群和配置更改、补丁和版本的策略。

客户发起的更改

您可以使用自助服务功能(例如集群部署、工作节点扩展或集群删除)来启动更改。

更改历史记录记录在 OpenShift 集群管理器“概述”选项卡中的“集群历史记录”部分中,您可以查看该历史记录。更改历史记录包括但不限于以下更改的日志:

  • 添加或删除身份提供程序

  • dedicated-admins 组添加或删除用户

  • 扩展集群计算节点

  • 扩展集群负载均衡器

  • 扩展集群持久性存储

  • 升级集群

您可以通过避免在 OpenShift 集群管理器中更改以下组件来实现维护排除:

  • 删除集群

  • 添加、修改或删除身份提供商

  • 向高级组添加、修改或删除用户

  • 安装或删除附加组件

  • 修改集群网络配置

  • 添加、修改或删除机器池

  • 启用或禁用用户工作负载监控

  • 启动升级

要强制执行维护排除,请确保已禁用机器池自动扩展或自动升级策略。解除维护排除后,根据需要继续启用机器池自动扩展或自动升级策略。

Red Hat 发起的更改

Red Hat 站点可靠性工程 (SRE) 使用 GitOps 工作流和完全自动化的 CI/CD 管道来管理 OpenShift Dedicated 的基础架构、代码和配置。此流程确保 Red Hat 可以安全地持续引入服务改进,而不会对客户产生负面影响。

每个提议的更改在签入后都会立即进行一系列自动验证。然后将更改部署到暂存环境中,在该环境中进行自动集成测试。最后,将更改部署到生产环境。每个步骤都是完全自动化的。

授权的 SRE 审核员必须批准每个步骤的推进。审核员不能与提出更改的个人相同。所有更改和批准都作为 GitOps 工作流的一部分进行完全审核。

某些更改会使用功能标志逐步发布到生产环境,以控制新功能对指定集群或客户的可用性。

补丁管理

OpenShift Container Platform 软件和底层的不可变 Red Hat Enterprise Linux CoreOS (RHCOS) 操作系统映像会定期通过 z 流升级修复错误和漏洞。在 OpenShift Container Platform 文档中阅读有关 RHCOS 架构 的更多信息。

版本管理

Red Hat 不会自动升级您的集群。您可以使用 OpenShift Cluster Manager Web 控制台定期(定期升级)或仅一次(单个升级)安排升级集群。只有在集群受到严重影响的 CVE 影响时,Red Hat 可能会强制将集群升级到新的 z 流版本。您可以在 OpenShift Cluster Manager Web 控制台中查看所有集群升级事件的历史记录。有关版本的更多信息,请参见 生命周期策略

安全和法规遵从性

安全和法规遵从性包括任务,例如安全控制的实施和合规性认证。

数据分类

Red Hat 定义并遵循数据分类标准,以确定数据的敏感性,并突出显示在收集、使用、传输、存储和处理数据时对其机密性和完整性的固有风险。客户拥有的数据被归类为最高级别的敏感性和处理要求。

数据管理

OpenShift Dedicated 使用云提供商服务,例如 AWS 密钥管理服务 (KMS) 和 Google Cloud KMS,以帮助安全地管理持久性数据的加密密钥。这些密钥用于加密所有控制平面、基础架构和工作节点根卷。客户可以在安装时指定自己的 KMS 密钥来加密根卷。持久卷 (PV) 也使用 KMS 进行密钥管理。客户可以通过创建一个引用 KMS 密钥 Amazon 资源名称 (ARN) 或 ID 的新StorageClass来指定自己的 KMS 密钥来加密 PV。

当客户删除其 OpenShift Dedicated 集群时,所有集群数据都将永久删除,包括控制平面数据卷和客户应用程序数据卷,例如持久卷 (PV)。

漏洞管理

Red Hat 使用行业标准工具定期对 OpenShift Dedicated 进行漏洞扫描。已识别的漏洞将根据严重性基于时间线跟踪其修复。漏洞扫描和修复活动已记录在案,供第三方评估人员在合规性认证审核过程中进行验证。

网络安全

防火墙和 DDoS 防护

每个 OpenShift Dedicated 集群都受到云基础架构级别使用防火墙规则(AWS 安全组或 Google Cloud Compute Engine 防火墙规则)的安全网络配置的保护。AWS 上的 OpenShift Dedicated 客户还通过 AWS Shield Standard 获得针对 DDoS 攻击的保护。同样,GCP 上 OpenShift Dedicated 使用的所有 GCP 负载均衡器和公共 IP 地址都通过 Google Cloud Armor Standard 获得针对 DDoS 攻击的保护。

私有集群和网络连接

客户可以选择将其 OpenShift Dedicated 集群端点(Web 控制台、API 和应用程序路由器)配置为私有,以便从 Internet 无法访问集群控制平面或应用程序。

对于 AWS,客户可以通过 AWS VPC 对等互连、AWS VPN 或 AWS Direct Connect 配置到其 OpenShift Dedicated 集群的私有网络连接。

集群网络访问控制

客户可以按项目配置细粒度的网络访问控制规则。

渗透测试

Red Hat 定期对 OpenShift Dedicated 进行渗透测试。测试由使用行业标准工具和最佳实践的独立内部团队执行。

发现的任何问题都将根据严重性进行优先排序。发现属于开源项目的任何问题都将与社区共享以进行解决。

合规性

OpenShift Dedicated 遵循安全和控制的常见行业最佳实践。认证在以下表格中概述。

表 1. OpenShift Dedicated 的安全和控制认证
合规性 AWS 上的 OpenShift Dedicated GCP 上的 OpenShift Dedicated

HIPAA 资质

是(仅限客户云订阅)

是(仅限客户云订阅)

ISO 27001

PCI DSS 4.0

SOC 2 Type 2

其他资源

灾难恢复

OpenShift Dedicated 提供针对在 pod、工作节点、基础架构节点、控制平面节点和可用区级别发生的故障的灾难恢复。

所有灾难恢复都需要客户采用最佳实践来部署高可用性应用程序、存储和集群架构(例如,单区域部署与多区域部署),以应对所需的可可用性级别。

单个单区域集群无法避免或恢复可用性区域或区域故障。多个单区域集群,配合客户维护的故障转移,可以应对区域级故障。

单个多区域集群无法避免或恢复整个区域故障。多个多区域集群,配合客户维护的故障转移,可以应对区域级故障。

更多资源

  • 有关访问 Red Hat 站点可靠性工程 (SRE) 团队的更多信息,请参阅 身份和访问管理