作为集群管理员,您可能需要停止 OpenShift Container Platform 集群一段时间,并在稍后重新启动它。重新启动集群的一些原因包括您需要对集群执行维护或想要降低资源成本。在 OpenShift Container Platform 中,您可以执行集群的优雅关闭,以便您可以轻松地稍后重新启动集群。
在关闭集群之前,您必须备份 etcd 数据;etcd 是 OpenShift Container Platform 的键值存储,它持久化所有资源对象的状态。etcd 备份在灾难恢复中起着至关重要的作用。在 OpenShift Container Platform 中,您还可以替换不健康的 etcd 成员。
当您想要让您的集群再次运行时,以优雅的方式重新启动集群。
集群的证书在安装日期一年后过期。您可以关闭集群并期望它在证书仍然有效时优雅地重新启动。尽管集群会自动检索过期的控制平面证书,但您仍然必须批准证书签名请求 (CSR)。 |
您可能会遇到 OpenShift Container Platform 无法按预期工作的情况,例如:
由于意外情况(例如节点故障或网络连接问题),您的集群在重新启动后无法正常工作。
您错误地删除了集群中的一些关键内容。
您丢失了大部分控制平面主机,导致 etcd 仲裁丢失。
您可以始终通过使用保存的 etcd 快照将集群恢复到之前的状态来从灾难情况中恢复。
作为集群管理员,您可以使用 OpenShift API for Data Protection (OADP) 来备份和恢复在 OpenShift Container Platform 上运行的应用程序。
OADP 使用与您安装的 OADP 版本相匹配的 Velero 版本(请参阅下载 Velero CLI 工具中的表格),以命名空间为粒度备份和恢复 Kubernetes 资源和内部镜像。OADP 使用快照或 Restic 来备份和恢复持久卷 (PV)。详情请参阅OADP 功能。
OADP 有以下需求:
您必须以具有 `cluster-admin` 角色的用户身份登录。
您必须有用于存储备份的对象存储,例如以下存储类型之一:
OpenShift Data Foundation
Amazon Web Services
Microsoft Azure
Google Cloud Platform
与 S3 兼容的对象存储
IBM Cloud® 对象存储 S3
如果您想在 OCP 4.11 及更高版本上使用 CSI 备份,请安装 OADP 1.1.x。 OADP 1.0.x 不支持 OCP 4.11 及更高版本上的 CSI 备份。OADP 1.0.x 包含 Velero 1.7.x 并需要 API 组 `snapshot.storage.k8s.io/v1beta1`,而该 API 组在 OCP 4.11 及更高版本中不存在。 |
用于 S3 存储的 `CloudStorage` API 仅为技术预览功能。技术预览功能不受 Red Hat 生产服务级别协议 (SLA) 的支持,并且可能功能不完整。Red Hat 不建议在生产环境中使用它们。这些功能可让您抢先体验即将推出的产品功能,从而能够在开发过程中测试功能并提供反馈。 有关 Red Hat 技术预览功能的支持范围的更多信息,请参阅技术预览功能支持范围。 |
要使用快照备份 PV,您必须拥有具有原生快照 API 或支持容器存储接口 (CSI) 快照的云存储,例如以下提供商:
Amazon Web Services
Microsoft Azure
Google Cloud Platform
支持 CSI 快照的云存储,例如 Ceph RBD 或 Ceph FS
如果您不想使用快照备份 PV,您可以使用Restic,它默认情况下由 OADP 运算符安装。 |
您可以通过创建 `Backup` 自定义资源 (CR) 来备份应用程序。请参阅创建 Backup CR。您可以配置以下备份选项:
创建备份钩子以在备份操作之前或之后运行命令
您可以通过创建 `Restore` (CR) 来恢复应用程序备份。请参阅创建 Restore CR。
您可以配置恢复钩子以在恢复操作期间在初始化容器或应用程序容器中运行命令。