客户数据
本文档概述了 AWS 上 Red Hat OpenShift 服务 (ROSA) 托管服务的 Red Hat、Amazon Web Services (AWS) 和客户的责任。
虽然 Red Hat 和 Amazon Web Services (AWS) 管理 AWS 上的 Red Hat OpenShift 服务,但客户也承担某些责任。AWS 上的 Red Hat OpenShift 服务是远程访问的,托管在公共云资源上,创建在客户拥有的 AWS 账户中,并且其底层平台和数据安全由 Red Hat 拥有。
如果将 |
资源 | 事件和运营管理 | 变更管理 | 访问和身份授权 | 安全和法规遵从性 | 灾难恢复 |
---|---|---|---|---|---|
客户数据 |
客户 |
客户 |
客户 |
客户 |
客户 |
客户应用程序 |
客户 |
客户 |
客户 |
客户 |
客户 |
开发者服务 |
客户 |
客户 |
客户 |
客户 |
客户 |
平台监控 |
Red Hat |
Red Hat |
Red Hat |
Red Hat |
Red Hat |
日志记录 |
Red Hat |
Red Hat 和客户 |
Red Hat 和客户 |
Red Hat 和客户 |
Red Hat |
应用程序网络 |
Red Hat 和客户 |
Red Hat 和客户 |
Red Hat 和客户 |
Red Hat |
Red Hat |
集群网络 |
Red Hat [1] |
Red Hat 和客户 [2] |
Red Hat 和客户 |
Red Hat [1] |
Red Hat [1] |
虚拟网络管理 |
Red Hat 和客户 |
Red Hat 和客户 |
Red Hat 和客户 |
Red Hat 和客户 |
Red Hat 和客户 |
虚拟计算管理(控制平面、基础设施和工作节点) |
Red Hat |
Red Hat |
Red Hat |
Red Hat |
Red Hat |
集群版本 |
Red Hat |
Red Hat 和客户 |
Red Hat |
Red Hat |
Red Hat |
容量管理 |
Red Hat |
Red Hat 和客户 |
Red Hat |
Red Hat |
Red Hat |
虚拟存储管理 |
Red Hat |
Red Hat |
Red Hat |
Red Hat |
Red Hat |
AWS 软件(公共 AWS 服务) |
AWS |
AWS |
AWS |
AWS |
AWS |
硬件/AWS 全球基础设施 |
AWS |
AWS |
AWS |
AWS |
AWS |
如果客户选择使用自己的 CNI 插件,则责任将转移给客户。
在配置集群之前,客户必须配置其防火墙以允许访问所需的 OpenShift 和 AWS 域和端口。有关更多信息,请参见“AWS 防火墙先决条件”。
Red Hat、AWS 和客户共同负责监控、维护和 AWS 上 Red Hat OpenShift 服务 (ROSA) 集群的整体运行状况。本文档说明了如下表所示每个列出资源的责任划分。
集群通知是关于集群状态、运行状况或性能的消息。
集群通知是 Red Hat 站点可靠性工程 (SRE) 与您沟通托管集群运行状况的主要方式。SRE 还可以使用集群通知提示您执行操作,以解决或防止集群问题。
集群所有者和管理员必须定期查看和处理集群通知,以确保集群保持健康和受支持。
您可以在 Red Hat Hybrid Cloud Console 中的集群历史选项卡中查看集群通知。默认情况下,只有集群所有者会收到集群通知电子邮件。如果其他用户需要接收集群通知电子邮件,请将每个用户添加为集群的通知联系人。
集群通知旨在让您了解集群的运行状况以及影响它的重大事件。
大多数集群通知都是自动生成并发送的,以确保您能立即了解问题或集群状态的重要更改。
在某些情况下,Red Hat 站点可靠性工程 (SRE) 会创建和发送集群通知,以针对复杂问题提供更多上下文和指导。
对于低影响事件、低风险安全更新、例行操作和维护,或 SRE 快速解决的小型、短暂问题,不会发送集群通知。
Red Hat 服务会在以下情况下自动发送通知:
远程运行状况监控或环境验证检查检测到集群中的问题,例如,当工作节点磁盘空间不足时。
集群生命周期中的重大事件会在以下情况下发生,例如:计划的维护或升级开始,或集群操作受到事件影响,但不需要客户干预。
集群管理发生重大更改,例如:集群所有权或管理控制权从一个用户转移到另一个用户。
您的集群订阅发生更改或更新,例如:Red Hat 对订阅条款进行更新或为您的集群提供新功能。
SRE 在以下情况下创建并发送通知:
事件导致性能下降或中断,影响集群的可用性或性能,例如:您的云提供商发生区域性中断。SRE 会发送后续通知,告知您事件解决进度,并在事件解决后发出通知。
在您的集群上检测到安全漏洞、安全漏洞或异常活动。
Red Hat 检测到您所做的更改正在创建或可能导致集群不稳定。
Red Hat 检测到您的工作负载正在导致集群性能下降或不稳定。
Red Hat 负责监督默认平台网络所需的组件。AWS 负责保护运行 AWS 云中所有服务的硬件基础设施。客户负责客户应用程序数据以及客户为集群网络或虚拟网络配置的任何自定义网络的事件和运营管理。
资源 | 服务职责 | 客户职责 |
---|---|---|
应用程序网络 |
Red Hat
|
|
集群网络 |
Red Hat
|
|
虚拟网络管理 |
Red Hat
|
|
虚拟存储管理 |
Red Hat
|
|
平台监控 |
Red Hat
|
|
事件管理 |
Red Hat
|
|
基础设施和数据弹性 |
Red Hat
|
|
集群容量 |
Red Hat
|
|
AWS 软件(公共 AWS 服务) |
AWS
|
|
硬件/AWS 全球基础设施 |
AWS
|
|
平台审核日志安全地转发到集中的安全信息和事件监控 (SIEM) 系统,在该系统中,它们可能会触发向 SRE 团队配置的警报,并且还会进行人工审查。审核日志在 SIEM 系统中保留一年。在删除集群时,不会删除给定集群的审核日志。
事件是指导致一个或多个 Red Hat 服务性能下降或中断的事件。客户或客户体验和参与 (CEE) 成员可以通过支持案例、通过集中式监控和警报系统或直接由 SRE 团队成员提出事件。
根据对服务和客户的影响,事件会根据严重性进行分类。
在管理新事件时,Red Hat 使用以下常规工作流程:
首先,SRE 响应者会收到有关新事件的警报,并开始初步调查。
初步调查后,事件将分配给事件负责人,后者协调恢复工作。
事件负责人管理所有与恢复相关的沟通和协调,包括任何相关的通知和支持案例更新。
事件已恢复。
事件已记录,并在事件发生后 5 个工作日内进行根本原因分析 (RCA)。
事件发生后 7 个工作日内,将与客户共享 RCA 草案文档。
Red Hat 还协助通过支持案例提出的客户事件。Red Hat 可以协助的活动包括但不限于:
取证收集,包括隔离虚拟计算
指导计算镜像收集
提供收集的审核日志
本节描述有关集群和配置更改、补丁和发行版的管理策略。
Red Hat 负责启用对客户将控制的集群基础设施和服务的更改,以及维护控制平面节点、基础设施节点和服务以及工作节点的版本。AWS 负责保护运行 AWS 云中所有提供的服务的硬件基础设施。客户负责启动基础设施变更请求,以及在集群上安装和维护可选服务和网络配置,以及对客户数据和客户应用程序的所有更改。
您可以使用自助服务功能(例如集群部署、工作节点扩展或集群删除)来启动更改。
更改历史记录捕获在 OpenShift 集群管理器**概述选项卡**中的**集群历史记录**部分,您可以查看该历史记录。更改历史记录包括但不限于以下更改的日志
添加或删除身份提供商
向 dedicated-admins
组添加或删除用户
扩展集群计算节点
扩展集群负载均衡器
扩展集群持久性存储
升级集群
您可以通过避免在 OpenShift 集群管理器中更改以下组件来实现维护排除
删除集群
添加、修改或删除身份提供商
添加、修改或从提升的组中删除用户
安装或删除附加组件
修改集群网络配置
添加、修改或删除机器池
启用或禁用用户工作负载监控
启动升级
要强制执行维护排除,请确保已禁用机器池自动扩展或自动升级策略。取消维护排除后,根据需要继续启用机器池自动扩展或自动升级策略。 |
Red Hat 站点可靠性工程 (SRE) 使用 GitOps 工作流和完全自动化的 CI/CD 管道管理 AWS 上的 Red Hat OpenShift Service 的基础设施、代码和配置。此流程确保 Red Hat 能够持续安全地引入服务改进,而不会对客户产生负面影响。
每个提议的更改在签入后都会立即进行一系列自动验证。然后将更改部署到暂存环境,在该环境中它们会进行自动集成测试。最后,更改将部署到生产环境。每个步骤都是完全自动化的。
授权的 SRE 审阅者必须批准进入每个步骤。审阅者不能与提出更改的个人相同。所有更改和批准作为 GitOps 工作流的一部分都是完全可审计的。
一些更改会增量发布到生产环境,使用功能标志来控制新功能对指定集群或客户的可用性。
OpenShift Container Platform 软件和底层的不可变 Red Hat CoreOS (RHCOS) 操作系统映像会在定期 z 流升级中针对错误和漏洞进行修补。在 OpenShift Container Platform 文档中阅读有关RHCOS 架构的更多信息。
Red Hat 不会自动升级您的集群。您可以使用 OpenShift 集群管理器 Web 控制台定期(定期升级)或仅一次(单个升级)安排升级集群。只有当集群受到严重影响的 CVE 影响时,Red Hat 才能强制将集群升级到新的 z 流版本。
由于所需的权限在 y 流版本之间可能会发生变化,因此可能必须在执行升级之前更新策略。因此,您无法在使用 STS 的 ROSA 集群上安排定期升级。 |
您可以在 OpenShift 集群管理器 Web 控制台中查看所有集群升级事件的历史记录。有关发行版的更多信息,请参阅生命周期策略。
资源 | 服务职责 | 客户职责 |
---|---|---|
日志记录 |
Red Hat
|
|
应用程序网络 |
Red Hat
|
|
集群网络 |
Red Hat
|
|
虚拟网络管理 |
Red Hat
|
|
虚拟计算管理 |
Red Hat
|
|
集群版本 |
Red Hat
|
|
容量管理 |
Red Hat
|
|
虚拟存储管理 |
Red Hat
|
|
AWS 软件(公共 AWS 服务) |
AWS 计算:提供 Amazon EC2 服务,用于 ROSA 控制平面、基础设施和工作节点。 存储:提供 Amazon EBS,ROSA 使用它为集群提供本地节点存储和持久卷存储。 存储:提供 Amazon S3,用于 ROSA 服务的内置镜像注册表。 网络:提供以下 AWS 云服务,ROSA 使用它们来满足虚拟网络基础设施的需求
网络:提供以下 AWS 服务,客户可以选择将其与 ROSA 集成
|
|
硬件/AWS 全球基础设施 |
AWS
|
|
下表概述了安全和法规遵从性方面的责任
资源 | 服务职责 | 客户职责 |
---|---|---|
日志记录 |
Red Hat
|
|
虚拟网络管理 |
Red Hat
|
|
虚拟存储管理 |
Red Hat
|
|
虚拟计算管理 |
Red Hat
|
|
AWS 软件(公共 AWS 服务) |
AWS 计算:保护 Amazon EC2,用于 ROSA 控制平面、基础设施和工作节点。有关更多信息,请参阅 Amazon EC2 用户指南中的Amazon EC2 中的基础设施安全。 存储:保护 Amazon Elastic Block Store (EBS),用于 ROSA 控制平面、基础设施和工作节点卷以及 Kubernetes 持久卷。有关更多信息,请参阅 Amazon EC2 用户指南中的Amazon EC2 中的数据保护。 存储:提供 AWS KMS,ROSA 使用它来加密控制平面、基础设施和工作节点卷以及持久卷。有关更多信息,请参阅 Amazon EC2 用户指南中的Amazon EBS 加密。 存储:保护 Amazon S3,用于 ROSA 服务的内置容器镜像注册表。有关更多信息,请参阅 S3 用户指南中的Amazon S3 安全性。 网络:提供安全功能和服务,以增强隐私并控制对 AWS 全球基础设施的网络访问,包括内置于 Amazon VPC 的网络防火墙、专用或专用网络连接以及 AWS 安全设施之间 AWS 全球和区域网络上所有流量的自动加密。有关更多信息,请参阅AWS 共享责任模型和《AWS 安全简介》白皮书中的基础设施安全。 |
|
硬件/AWS 全球基础设施 |
AWS
|
|
灾难恢复包括数据和配置备份、将数据和配置复制到灾难恢复环境以及在灾难事件发生时进行故障转移。
AWS 上的 Red Hat OpenShift 服务 (ROSA) 提供针对在 Pod、工作节点、基础设施节点、控制平面节点和可用区级别发生的故障的灾难恢复。
所有灾难恢复都需要客户使用最佳实践来部署高可用性应用程序、存储和集群架构,例如单区域部署或多区域部署,以应对所需可用性级别。
单个单区域集群无法在可用区或区域中断的情况下避免或恢复灾难。具有客户维护的故障转移的多个单区域集群可以应对区域或区域级别的中断。
单个多区域集群无法在整个区域中断的情况下避免或恢复灾难。具有客户维护的故障转移的多个多区域集群可以应对区域级别的中断。
资源 | 服务职责 | 客户职责 |
---|---|---|
虚拟网络管理 |
Red Hat
|
|
虚拟存储管理 |
Red Hat
|
|
虚拟计算管理 |
Red Hat
|
|
AWS 软件(公共 AWS 服务) |
AWS 计算:提供支持数据弹性的 Amazon EC2 功能,例如 Amazon EBS 快照和 Amazon EC2 自动扩展。更多信息,请参见 EC2 用户指南中的Amazon EC2 中的弹性。 存储:为 ROSA 服务和客户提供通过 Amazon EBS 卷快照备份集群上 Amazon EBS 卷的能力。 存储:有关支持数据弹性的 Amazon S3 功能的信息,请参见Amazon S3 中的弹性。 网络:有关支持数据弹性的 Amazon VPC 功能的信息,请参见 Amazon VPC 用户指南中的Amazon 虚拟私有云中的弹性。 |
|
硬件/AWS 全球基础设施 |
AWS
|
|
客户负责其部署到 AWS 上的 Red Hat OpenShift 服务的应用程序、工作负载和数据。但是,Red Hat 和 AWS 提供各种工具来帮助客户管理平台上的数据和应用程序。
资源 | Red Hat 和 AWS | 客户职责 |
---|---|---|
客户数据 |
Red Hat
AWS
|
|
客户应用程序 |
Red Hat
AWS
|
|