×

在 OpenShift Container Platform 4.17 版本中,您可以在您预配的 VMware vSphere 基础架构上安装集群。

对多个 vCenter 的支持仅为技术预览功能。技术预览功能不受 Red Hat 生产服务级别协议 (SLA) 的支持,并且可能功能不完整。Red Hat 不建议在生产环境中使用它们。这些功能可让您抢先体验即将推出的产品功能,使客户能够在开发过程中测试功能并提供反馈。

有关 Red Hat 技术预览功能的支持范围的更多信息,请参见技术预览功能支持范围

以下步骤仅作为用户预配基础架构安装的示例。使用您提供的基础架构安装集群需要了解 vSphere 平台和 OpenShift Container Platform 的安装流程。请将用户预配基础架构安装说明作为指南;您可以通过其他方法创建所需资源。

先决条件

  • 您已完成使用用户预配的基础架构准备安装集群中的任务。

  • 您已查看您的 VMware 平台许可证。Red Hat 不会对您的 VMware 许可证施加任何限制,但某些 VMware 基础架构组件需要许可证。

  • 您已查看有关OpenShift Container Platform 安装和更新流程的详细信息。

  • 您已阅读有关选择集群安装方法和为用户准备集群的文档。

  • 您已为您的集群预配了持久性存储。要部署私有镜像注册表,您的存储必须提供ReadWriteMany访问模式。

  • 完成安装需要您将 Red Hat Enterprise Linux CoreOS (RHCOS) OVA 上传到 vSphere 主机。完成此流程的机器需要访问 vCenter 和 ESXi 主机上的 443 端口。您已验证 443 端口可访问。

  • 如果您使用防火墙,请与管理员确认 443 端口可访问。为了成功安装,控制平面节点必须能够通过 443 端口访问 vCenter 和 ESXi 主机。

  • 如果您使用防火墙,您已将其配置为允许集群需要访问的站点

    如果您正在配置代理,请务必也查看此站点列表。

OpenShift Container Platform 的互联网访问

在 OpenShift Container Platform 4.17 中,您需要访问互联网才能安装集群。

您必须具有互联网访问权限才能:

  • 访问OpenShift 集群管理器下载安装程序并执行订阅管理。如果集群具有互联网访问权限并且您没有禁用遥测,则该服务会自动授权您的集群。

  • 访问Quay.io获取安装集群所需的软件包。

  • 获取执行集群更新所需的软件包。

如果您的集群无法直接访问互联网,您可以在您预配的某些类型的基础架构上执行受限网络安装。在此过程中,您将下载所需内容并将其用于使用安装包填充镜像注册表。对于某些安装类型,您安装集群的环境将不需要互联网访问。在更新集群之前,请更新镜像注册表的内容。

VMware vSphere 区域和区域启用

您可以将 OpenShift Container Platform 集群部署到多个 vSphere 数据中心。每个数据中心都可以运行多个集群。此配置降低了硬件故障或网络中断可能导致集群故障的风险。要启用区域和区域,您必须为 OpenShift Container Platform 集群定义多个故障域。

VMware vSphere 区域和区域启用功能需要 vSphere Container Storage Interface (CSI) 驱动程序作为集群中的默认存储驱动程序。因此,此功能仅在新安装的集群上可用。

对于从先前版本升级的集群,您必须为集群启用 CSI 自动迁移。然后,您可以为升级的集群配置多个区域和区域。

默认安装配置将集群部署到单个 vSphere 数据中心。如果您想将集群部署到多个 vSphere 数据中心,则必须创建一个启用区域和区域功能的安装配置文件。

默认的install-config.yaml文件包含vcentersfailureDomains字段,您可以在其中为 OpenShift Container Platform 集群指定多个 vSphere 数据中心和集群。如果您想在由单个数据中心组成的 vSphere 环境中安装 OpenShift Container Platform 集群,则可以将这些字段留空。

以下列表描述了与为您的集群定义区域和区域相关的术语

  • 故障域:建立区域和区域之间的关系。您可以使用 vCenter 对象(例如datastore对象)定义故障域。故障域定义 OpenShift Container Platform 集群节点的 vCenter 位置。

  • 区域:指定 vCenter 数据中心。您可以使用openshift-region标签类别中的标签定义区域。

  • 区域:指定 vCenter 群集。您可以使用openshift-zone标签类别中的标签定义区域。

如果您计划在install-config.yaml文件中指定多个故障域,则必须在创建配置文件之前预先创建标签类别、区域标签和区域标签。

您必须为每个 vCenter 数据中心创建一个 vCenter 标签,该标签代表一个区域。此外,您必须为在数据中心中运行的每个群集创建一个 vCenter 标签,该标签代表一个区域。创建标签后,您必须将其中的每个标签附加到它们各自的数据中心和群集。

下表概述了在单个 VMware vCenter 中运行多个 vSphere 数据中心的配置中区域、区域和标签之间关系的示例。

数据中心(区域) 集群(区域) 标签

us-east

us-east-1

us-east-1a

us-east-1b

us-east-2

us-east-2a

us-east-2b

us-west

us-west-1

us-west-1a

us-west-1b

us-west-2

us-west-2a

us-west-2b

手动创建安装配置文件

安装集群需要您手动创建安装配置文件。

先决条件
  • 您在本地机器上有一个 SSH 公钥,需要提供给安装程序。该密钥将用于对集群节点进行 SSH 身份验证,以便进行调试和灾难恢复。

  • 您已获得 OpenShift Container Platform 安装程序和集群的拉取密钥。

步骤
  1. 创建一个安装目录来存储您所需的安装资源

    $ mkdir <installation_directory>

    您必须创建一个目录。某些安装资源(例如 bootstrap X.509 证书)的有效期很短,因此您不能重复使用安装目录。如果您想重用另一个集群安装中的单个文件,可以将它们复制到您的目录中。但是,安装资源的文件名在不同版本之间可能会发生变化。从早期 OpenShift Container Platform 版本复制安装文件时,请谨慎操作。

  2. 自定义提供的示例install-config.yaml 文件模板,并将其保存到<installation_directory>中。

    此配置文件必须命名为install-config.yaml

  3. 如果您要安装三节点集群,请通过将compute.replicas参数设置为0来修改install-config.yaml文件。这确保了集群的控制平面是可调度的。有关更多信息,请参见“在 vSphere 上安装三节点集群”。

  4. 备份install-config.yaml文件,以便您可以使用它来安装多个集群。

    install-config.yaml文件将在安装过程的下一步中使用。您现在必须对其进行备份。

其他资源

VMware vSphere 的示例install-config.yaml文件

您可以自定义install-config.yaml文件以指定有关 OpenShift Container Platform 集群平台的更多详细信息,或修改所需参数的值。

additionalTrustBundlePolicy: Proxyonly
apiVersion: v1
baseDomain: example.com (1)
compute: (2)
- architecture: amd64
  name: <worker_node>
  platform: {}
  replicas: 0 (3)
controlPlane: (2)
  architecture: amd64
  name: <parent_node>
  platform: {}
  replicas: 3 (4)
metadata:
  creationTimestamp: null
  name: test (5)
networking:
---
platform:
  vsphere:
    failureDomains: (6)
    - name: <failure_domain_name>
      region: <default_region_name>
      server: <fully_qualified_domain_name>
      topology:
        computeCluster: "/<data_center>/host/<cluster>"
        datacenter: <data_center> (7)
        datastore: "/<data_center>/datastore/<datastore>" (8)
        networks:
        - <VM_Network_name>
        resourcePool: "/<data_center>/host/<cluster>/Resources/<resourcePool>" (9)
        folder: "/<data_center_name>/vm/<folder_name>/<subfolder_name>" (10)
      zone: <default_zone_name>
    vcenters:
    - datacenters:
      - <data_center>
      password: <password> (11)
      port: 443
      server: <fully_qualified_domain_name> (12)
      user: [email protected]
    diskType: thin (13)
fips: false (14)
pullSecret: '{"auths": ...}' (15)
sshKey: 'ssh-ed25519 AAAA...' (16)
1 集群的基本域名。所有 DNS 记录都必须为此基本域名的子域名,并包含集群名称。
2 controlPlane部分是单个映射,但compute部分是映射序列。为了满足不同数据结构的要求,compute部分的第一行必须以连字符-开头,而controlPlane部分的第一行则不能。这两个部分都定义了一个单一机器池,因此只使用一个控制平面。OpenShift Container Platform 不支持定义多个计算池。
3 您必须将replicas参数的值设置为0。此参数控制集群为您创建和管理的工作节点数量,这些是当您使用用户预配的基础架构时集群不执行的功能。您必须手动部署工作节点才能在完成安装 OpenShift Container Platform 之前供集群使用。
4 您添加到集群的控制平面机器数量。由于集群将此值用作集群中 etcd 端点的数量,因此此值必须与您部署的控制平面机器数量匹配。
5 您在 DNS 记录中指定的集群名称。
6 建立区域和区域之间的关系。您可以使用 vCenter 对象(例如datastore对象)来定义故障域。故障域定义了 OpenShift Container Platform 集群节点的 vCenter 位置。
7 vSphere 数据中心。
8 包含虚拟机文件、模板和 ISO 映像的 vSphere 数据存储的路径。

您可以指定数据存储集群中任何现有数据存储的路径。默认情况下,数据存储集群会自动启用 Storage vMotion。Red Hat 不支持 Storage vMotion,因此您必须禁用 Storage vMotion 以避免 OpenShift Container Platform 集群的数据丢失问题。

如果您必须跨多个数据存储指定虚拟机,请使用datastore对象在集群的install-config.yaml配置文件中指定故障域。有关更多信息,请参见“VMware vSphere 区域和区域启用”。

9 可选:对于安装程序预配的基础架构,安装程序创建虚拟机的现有资源池的绝对路径,例如/<data_center_name>/host/<cluster_name>/Resources/<resource_pool_name>/<optional_nested_resource_pool_name>。如果您未指定值,则资源将安装在集群的根目录/example_data_center/host/example_cluster/Resources中。
10 可选:对于安装程序预配的基础架构,安装程序创建虚拟机的现有文件夹的绝对路径,例如/<data_center_name>/vm/<folder_name>/<subfolder_name>。如果您不提供此值,安装程序将在数据中心虚拟机文件夹中创建一个名为基础架构 ID 的顶级文件夹。如果您正在为集群提供基础架构并且不想使用名为thin的默认StorageClass对象,则可以从install-config.yaml文件中省略folder参数。
11 与 vSphere 用户关联的密码。
12 vCenter 服务器的完全限定主机名或 IP 地址。

Cloud Controller Manager 运算符会对提供的主机名或 IP 地址执行连接检查。确保您指定主机名或 IP 地址到可访问的 vCenter 服务器。如果您向不存在的 vCenter 服务器提供元数据,则集群的安装将在引导阶段失败。

13 vSphere 磁盘预配方法。
14 是否启用或禁用 FIPS 模式。默认情况下,FIPS 模式未启用。如果启用 FIPS 模式,则 OpenShift Container Platform 运行的 Red Hat Enterprise Linux CoreOS (RHCOS) 机器将绕过默认的 Kubernetes 加密套件,并改用随 RHCOS 提供的加密模块。

要为您的集群启用 FIPS 模式,您必须从配置为在 FIPS 模式下运行的 Red Hat Enterprise Linux (RHEL) 计算机运行安装程序。有关在 RHEL 上配置 FIPS 模式的更多信息,请参见将 RHEL 切换到 FIPS 模式

在 FIPS 模式下启动 Red Hat Enterprise Linux (RHEL) 或 Red Hat Enterprise Linux CoreOS (RHCOS) 时,OpenShift Container Platform 核心组件仅在 x86_64、ppc64le 和 s390x 架构上使用已提交给 NIST 用于 FIPS 140-2/140-3 验证的 RHEL 加密库。

15 您从OpenShift Cluster Manager获得的拉取密钥。此拉取密钥允许您对包含的授权机构提供的服务进行身份验证,包括提供 OpenShift Container Platform 组件容器映像的 Quay.io。
16 Red Hat Enterprise Linux CoreOS (RHCOS) 中core用户的默认 SSH 密钥的公共部分。

在安装过程中配置集群范围的代理

生产环境可能会拒绝直接访问互联网,而是提供 HTTP 或 HTTPS 代理。您可以通过在install-config.yaml文件中配置代理设置来配置新的 OpenShift Container Platform 集群以使用代理。

先决条件
  • 您拥有现有的install-config.yaml文件。

  • 您已查看集群需要访问的站点,并确定是否需要任何站点绕过代理。默认情况下,所有集群出站流量都将被代理,包括对托管云提供商 API 的调用。如果需要,您可以将站点添加到Proxy对象的spec.noProxy字段以绕过代理。

    Proxy对象的status.noProxy字段将填充networking.machineNetwork[].cidrnetworking.clusterNetwork[].cidrnetworking.serviceNetwork[]字段的值来自您的安装配置。

    对于在 Amazon Web Services (AWS)、Google Cloud Platform (GCP)、Microsoft Azure 和 Red Hat OpenStack Platform (RHOSP) 上的安装,Proxy 对象的 status.noProxy 字段也会填充实例元数据端点 (169.254.169.254)。

步骤
  1. 编辑您的 install-config.yaml 文件并添加代理设置。例如:

    apiVersion: v1
    baseDomain: my.domain.com
    proxy:
      httpProxy: http://<username>:<pswd>@<ip>:<port> (1)
      httpsProxy: https://<username>:<pswd>@<ip>:<port> (2)
      noProxy: example.com (3)
    additionalTrustBundle: | (4)
        -----BEGIN CERTIFICATE-----
        <MY_TRUSTED_CA_CERT>
        -----END CERTIFICATE-----
    additionalTrustBundlePolicy: <policy_to_add_additionalTrustBundle> (5)
    1 用于创建集群外部 HTTP 连接的代理 URL。URL 方案必须为 http
    2 用于创建集群外部 HTTPS 连接的代理 URL。
    3 要从代理中排除的目标域名、IP 地址或其他网络 CIDR 的逗号分隔列表。在域名之前加上 . 以仅匹配子域名。例如,.y.com 匹配 x.y.com,但不匹配 y.com。使用 * 可绕过所有目标的代理。您必须包含 vCenter 的 IP 地址以及您用于其机器的 IP 范围。
    4 如果提供,安装程序将生成一个名为 user-ca-bundle 的 config map,该 map 位于 openshift-config 命名空间中,其中包含代理 HTTPS 连接所需的额外 CA 证书。集群网络操作员然后创建一个 trusted-ca-bundle config map,将这些内容与 Red Hat Enterprise Linux CoreOS (RHCOS) 信任捆绑包合并,并且此 config map 在 Proxy 对象的 trustedCA 字段中引用。除非代理的身份证书由 RHCOS 信任捆绑包中的授权机构签署,否则需要 additionalTrustBundle 字段。
    5 可选:确定 Proxy 对象的配置以在 trustedCA 字段中引用 user-ca-bundle config map 的策略。允许的值为 ProxyonlyAlways。使用 Proxyonly 仅在配置了 http/https 代理时引用 user-ca-bundle config map。使用 Always 始终引用 user-ca-bundle config map。默认值为 Proxyonly

    安装程序不支持代理 readinessEndpoints 字段。

    如果安装程序超时,请重新启动,然后使用安装程序的 wait-for 命令完成部署。例如:

    $ ./openshift-install wait-for install-complete --log-level debug
  2. 保存文件并在安装 OpenShift Container Platform 时引用它。

安装程序创建一个名为 cluster 的集群范围代理,该代理使用提供的 install-config.yaml 文件中的代理设置。如果没有提供代理设置,仍然会创建 cluster Proxy 对象,但它将具有 nil spec

仅支持名为 clusterProxy 对象,并且无法创建其他代理。

为 VMware vCenter 配置区域和区域

您可以修改默认的安装配置文件,以便可以将 OpenShift Container Platform 集群部署到多个 vSphere 数据中心。

来自先前版本的 OpenShift Container Platform 的默认 install-config.yaml 文件配置已弃用。您可以继续使用已弃用的默认配置,但 openshift-installer 将提示您一条警告消息,指示在配置文件中使用了已弃用的字段。

此示例使用 govc 命令。govc 命令是 VMware 提供的开源命令;Red Hat 不提供该命令。Red Hat 支持团队不维护 govc 命令。有关下载和安装 govc 的说明,请参阅 VMware 文档网站。

先决条件
  • 您有一个现有的 install-config.yaml 安装配置文件。

    您必须为您的 OpenShift Container Platform 集群指定至少一个故障域,以便您可以为您的 VMware vCenter 服务器置备数据中心对象。如果您需要在不同的数据中心、集群、数据存储和其他组件中置备虚拟机节点,请考虑指定多个故障域。要启用区域和区域,您必须为您的 OpenShift Container Platform 集群定义多个故障域。

步骤
  1. 输入以下 govc 命令行工具命令以创建 openshift-regionopenshift-zone vCenter 标签类别:

    如果您为 openshift-regionopenshift-zone vCenter 标签类别指定不同的名称,则 OpenShift Container Platform 集群的安装将失败。

    $ govc tags.category.create -d "OpenShift region" openshift-region
    $ govc tags.category.create -d "OpenShift zone" openshift-zone
  2. 要为要在其中部署集群的每个区域 vSphere 数据中心创建一个区域标签,请在您的终端中输入以下命令:

    $ govc tags.create -c <region_tag_category> <region_tag>
  3. 要为要在其中部署集群的每个 vSphere 集群创建一个区域标签,请输入以下命令:

    $ govc tags.create -c <zone_tag_category> <zone_tag>
  4. 通过输入以下命令,将区域标签附加到每个 vCenter 数据中心对象:

    $ govc tags.attach -c <region_tag_category> <region_tag_1> /<data_center_1>
  5. 通过输入以下命令,将区域标签附加到每个 vCenter 数据中心对象:

    $ govc tags.attach -c <zone_tag_category> <zone_tag_1> /<data_center_1>/host/vcs-mdcnc-workload-1
  6. 更改到包含安装程序的目录,并根据您选择的安装要求初始化集群部署。

在 vSphere 中心中定义了多个数据中心的示例 install-config.yaml 文件
---
compute:
---
  vsphere:
      zones:
        - "<machine_pool_zone_1>"
        - "<machine_pool_zone_2>"
---
controlPlane:
---
vsphere:
      zones:
        - "<machine_pool_zone_1>"
        - "<machine_pool_zone_2>"
---
platform:
  vsphere:
    vcenters:
---
    datacenters:
      - <data_center_1_name>
      - <data_center_2_name>
    failureDomains:
    - name: <machine_pool_zone_1>
      region: <region_tag_1>
      zone: <zone_tag_1>
      server: <fully_qualified_domain_name>
      topology:
        datacenter: <data_center_1>
        computeCluster: "/<data_center_1>/host/<cluster1>"
        networks:
        - <VM_Network1_name>
        datastore: "/<data_center_1>/datastore/<datastore1>"
        resourcePool: "/<data_center_1>/host/<cluster1>/Resources/<resourcePool1>"
        folder: "/<data_center_1>/vm/<folder1>"
    - name: <machine_pool_zone_2>
      region: <region_tag_2>
      zone: <zone_tag_2>
      server: <fully_qualified_domain_name>
      topology:
        datacenter: <data_center_2>
        computeCluster: "/<data_center_2>/host/<cluster2>"
        networks:
        - <VM_Network2_name>
        datastore: "/<data_center_2>/datastore/<datastore2>"
        resourcePool: "/<data_center_2>/host/<cluster2>/Resources/<resourcePool2>"
        folder: "/<data_center_2>/vm/<folder2>"
---

创建 Kubernetes 清单和 Ignition 配置文件

因为您必须修改一些集群定义文件并手动启动集群机器,所以您必须生成集群需要配置机器的 Kubernetes 清单和 Ignition 配置文件。

安装配置文件转换为 Kubernetes 清单。清单打包到 Ignition 配置文件中,这些文件稍后用于配置集群机器。

  • OpenShift Container Platform 安装程序生成的 Ignition 配置文件包含 24 小时后到期的证书,届时这些证书将被续订。如果在续订证书之前关闭集群,并且 24 小时后重新启动集群,则集群会自动恢复已过期的证书。例外情况是,您必须手动批准挂起的 node-bootstrapper 证书签名请求 (CSR) 以恢复 kubelet 证书。有关更多信息,请参阅有关“从已过期的控制平面证书中恢复”的文档。

  • 建议您在生成 Ignition 配置文件后 12 小时内使用它们,因为 24 小时证书会在集群安装后 16 到 22 小时之间轮换。通过在 12 小时内使用 Ignition 配置文件,如果证书更新在安装期间运行,您可以避免安装失败。

先决条件
  • 您已获得 OpenShift Container Platform 安装程序。

  • 您已创建 install-config.yaml 安装配置文件。

步骤
  1. 更改到包含 OpenShift Container Platform 安装程序的目录,并为集群生成 Kubernetes 清单:

    $ ./openshift-install create manifests --dir <installation_directory> (1)
    1 对于 <installation_directory>,请指定包含您创建的 install-config.yaml 文件的安装目录。
  2. 删除定义控制平面机器、计算机器集和控制平面机器集的 Kubernetes 清单文件:

    $ rm -f openshift/99_openshift-cluster-api_master-machines-*.yaml openshift/99_openshift-cluster-api_worker-machineset-*.yaml openshift/99_openshift-machine-api_master-control-plane-machine-set.yaml

    因为您自己创建和管理这些资源,所以您无需初始化它们。

    • 您可以保留计算机器集文件以使用机器 API 创建计算机器,但是您必须更新对它们的引用以匹配您的环境。

      如果您正在安装三节点集群,请跳过以下步骤以允许控制平面节点可调度。

      当您将控制平面节点从默认的不可调度配置为可调度时,需要额外的订阅。这是因为控制平面节点随后成为计算节点。

  3. 检查 <installation_directory>/manifests/cluster-scheduler-02-config.yml Kubernetes 清单文件中 mastersSchedulable 参数是否设置为 false。此设置可防止将 pod 调度到控制平面机器上。

    1. 打开 <installation_directory>/manifests/cluster-scheduler-02-config.yml 文件。

    2. 找到 `mastersSchedulable` 参数并确保将其设置为 `false`。

    3. 保存并退出文件。

  4. 要创建 Ignition 配置文件,请从包含安装程序的目录运行以下命令:

    $ ./openshift-install create ignition-configs --dir <installation_directory> (1)
    1 对于 `<installation_directory>`,请指定相同的安装目录。

    Ignition 配置文件将为安装目录中的引导程序、控制平面和计算节点创建。`kubeadmin-password` 和 `kubeconfig` 文件将创建在 `./<installation_directory>/auth` 目录中。

    .
    ├── auth
    │   ├── kubeadmin-password
    │   └── kubeconfig
    ├── bootstrap.ign
    ├── master.ign
    ├── metadata.json
    └── worker.ign

提取基础架构名称

Ignition 配置文件包含一个唯一的集群标识符,您可以使用它来唯一标识您在 VMware vSphere 中的集群。如果您计划将集群标识符用作虚拟机文件夹的名称,则必须提取它。

先决条件
  • 您已获得 OpenShift Container Platform 安装程序和集群的拉取密钥。

  • 您已为您的集群生成了 Ignition 配置文件。

  • 您已安装 `jq` 包。

步骤
  • 要从 Ignition 配置文件元数据中提取并查看基础架构名称,请运行以下命令:

    $ jq -r .infraID <installation_directory>/metadata.json (1)
    1 对于 `<installation_directory>`,请指定您存储安装文件的目录的路径。
    示例输出
    openshift-vw9j6 (1)
    
    1 此命令的输出是您的集群名称和一个随机字符串。

安装 RHCOS 并启动 OpenShift Container Platform 引导程序进程

要在 VMware vSphere 上的用户预配基础架构上安装 OpenShift Container Platform,您必须在 vSphere 主机上安装 Red Hat Enterprise Linux CoreOS (RHCOS)。安装 RHCOS 时,必须提供由 OpenShift Container Platform 安装程序为要安装的机器类型生成的 Ignition 配置文件。如果您已配置合适的网络、DNS 和负载均衡基础架构,则 RHCOS 机器重新引导后,OpenShift Container Platform 引导程序进程将自动开始。

先决条件
  • 您已获得集群的 Ignition 配置文件。

  • 您可以访问一个 HTTP 服务器,您可以从您的计算机访问该服务器,并且您创建的机器也可以访问该服务器。

  • 您已创建一个 vSphere 集群

步骤
  1. 将安装程序创建的引导程序 Ignition 配置文件(名为 `<installation_directory>/bootstrap.ign`)上传到您的 HTTP 服务器。记下此文件的 URL。

  2. 将以下引导节点的辅助 Ignition 配置文件保存到您的计算机,文件名为 `<installation_directory>/merge-bootstrap.ign`

    {
      "ignition": {
        "config": {
          "merge": [
            {
              "source": "<bootstrap_ignition_config_url>", (1)
              "verification": {}
            }
          ]
        },
        "timeouts": {},
        "version": "3.2.0"
      },
      "networkd": {},
      "passwd": {},
      "storage": {},
      "systemd": {}
    }
    1 指定您托管的引导程序 Ignition 配置文件的 URL。

    创建引导程序虚拟机 (VM) 时,您将使用此 Ignition 配置文件。

  3. 找到安装程序创建的以下 Ignition 配置文件:

    • <installation_directory>/master.ign

    • <installation_directory>/worker.ign

    • <installation_directory>/merge-bootstrap.ign

  4. 将 Ignition 配置文件转换为 Base64 编码。在此过程的后面,您必须将这些文件添加到虚拟机中的额外配置参数 `guestinfo.ignition.config.data` 中。

    例如,如果您使用 Linux 操作系统,可以使用 `base64` 命令对文件进行编码。

    $ base64 -w0 <installation_directory>/master.ign > <installation_directory>/master.64
    $ base64 -w0 <installation_directory>/worker.ign > <installation_directory>/worker.64
    $ base64 -w0 <installation_directory>/merge-bootstrap.ign > <installation_directory>/merge-bootstrap.64

    如果您计划在安装完成后向集群添加更多计算机器,请不要删除这些文件。

  5. 获取 RHCOS OVA 镜像。镜像可从 RHCOS 镜像镜像 页面获取。

    RHCOS 镜像可能不会随着每次 OpenShift Container Platform 版本的发布而更改。您必须下载版本号小于或等于您安装的 OpenShift Container Platform 版本的最高版本镜像。如果可用,请使用与您的 OpenShift Container Platform 版本匹配的镜像版本。

    文件名以 `rhcos-vmware.<architecture>.ova` 的格式包含 OpenShift Container Platform 版本号。

  6. 在 vSphere Client 中,在您的数据中心创建一个文件夹来存储您的虚拟机。

    1. 单击“**虚拟机和模板**”视图。

    2. 右键单击您的数据中心的名称。

    3. 单击“**新建文件夹**”→“**新建虚拟机和模板文件夹**”。

    4. 在显示的窗口中,输入文件夹名称。如果您没有在 `install-config.yaml` 文件中指定现有文件夹,则创建一个与基础架构 ID 同名的文件夹。您使用此文件夹名称,以便 vCenter 在其工作区配置的适当位置动态配置存储。

  7. 在 vSphere Client 中,为 OVA 镜像创建一个模板,然后根据需要克隆该模板。

    在以下步骤中,您将创建一个模板,然后为所有集群机器克隆该模板。然后,在配置虚拟机时,提供该克隆机器类型的 Ignition 配置文件的位置。

    1. 在“**主机和集群**”选项卡中,右键单击您的集群名称,然后选择“**部署 OVF 模板**”。

    2. 在“**选择 OVF**”选项卡上,指定您下载的 RHCOS OVA 文件的名称。

    3. 在“**选择名称和文件夹**”选项卡上,为您的模板设置一个“**虚拟机名称**”,例如 `Template-RHCOS`。单击您的 vSphere 集群的名称,然后选择您在上一步中创建的文件夹。

    4. 在“**选择计算资源**”选项卡上,单击您的 vSphere 集群的名称。

    5. 在“**选择存储**”选项卡上,配置虚拟机的存储选项。

      • 根据您的存储偏好选择“**精简置备**”或“**完整置备**”。

      • 选择您在 `install-config.yaml` 文件中指定的存储库。

      • 如果您想加密您的虚拟机,请选择“**加密此虚拟机**”。有关更多信息,请参见标题为“加密虚拟机的要求”的部分。

    6. 在“**选择网络**”选项卡上,指定您为集群配置的网络(如果可用)。

    7. 创建 OVF 模板时,请不要在“**自定义模板**”选项卡上指定值,也不要进一步配置模板。

      不要启动原始虚拟机模板。虚拟机模板必须保持关闭状态,并且必须为新的 RHCOS 机器克隆。启动虚拟机模板会将虚拟机模板配置为平台上的虚拟机,这会阻止它用作计算机集可以应用配置的模板。

  8. 可选:如有必要,更新虚拟机模板中配置的虚拟硬件版本。有关更多信息,请参阅 VMware 文档中的 将虚拟机升级到最新的硬件版本

    建议您在必要时,先将虚拟机模板的硬件版本更新到版本 15,然后再从中创建虚拟机。现在,在 vSphere 上运行的集群节点使用硬件版本 13 已被弃用。如果导入的模板默认为硬件版本 13,则必须确保您的 ESXi 主机版本为 6.7U3 或更高版本,然后再将虚拟机模板升级到硬件版本 15。如果您的 vSphere 版本低于 6.7U3,您可以跳过此升级步骤;但是,OpenShift Container Platform 的未来版本计划移除对硬件版本 13 和低于 6.7U3 的 vSphere 版本的支持。

  9. 模板部署后,为集群中的机器部署虚拟机。

    1. 右键单击模板名称,然后单击**克隆**→**克隆到虚拟机**。

    2. 在**选择名称和文件夹**选项卡上,指定虚拟机的名称。您可以在名称中包含机器类型,例如control-plane-0compute-1

      确保整个 vSphere 安装中的所有虚拟机名称都是唯一的。

    3. 在**选择名称和文件夹**选项卡上,选择为集群创建的文件夹的名称。

    4. 在**选择计算资源**选项卡上,选择数据中心中主机的名称。

    5. 在**选择克隆选项**选项卡上,选择**自定义此虚拟机的硬件**。

    6. 在**自定义硬件**选项卡上,单击**高级参数**。

      以下配置建议仅供示例使用。作为集群管理员,您必须根据集群的资源需求来配置资源。为了最好地管理集群资源,请考虑从集群的根资源池创建资源池。

      • 可选:覆盖 vSphere 中默认的 DHCP 网络。要启用静态 IP 网络

        • 设置您的静态 IP 配置

          示例命令
          $ export IPCFG="ip=<ip>::<gateway>:<netmask>:<hostname>:<iface>:none nameserver=srv1 [nameserver=srv2 [nameserver=srv3 [...]]]"
          示例命令
          $ export IPCFG="ip=192.168.100.101::192.168.100.254:255.255.255.0:::none nameserver=8.8.8.8"
        • 在从 vSphere 中的 OVA 启动虚拟机之前,设置guestinfo.afterburn.initrd.network-kargs属性

          示例命令
          $ govc vm.change -vm "<vm_name>" -e "guestinfo.afterburn.initrd.network-kargs=${IPCFG}"
      • 通过在**属性**和**值**字段中指定数据,添加以下配置参数名称和值。确保为创建的每个参数选择**添加**按钮。

        • guestinfo.ignition.config.data:找到在此过程中先前创建的 base-64 编码文件,并将此机器类型的 base64 编码 Ignition 配置文件的内容粘贴进去。

        • guestinfo.ignition.config.data.encoding:指定base64

        • disk.EnableUUID:指定TRUE

        • stealclock.enable:如果未定义此参数,请添加它并指定TRUE

        • 从集群的根资源池创建一个子资源池。在此子资源池中执行资源分配。

    7. 在**自定义硬件**选项卡的**虚拟硬件**面板中,根据需要修改指定的值。确保 RAM、CPU 和磁盘存储量满足机器类型的最低要求。

    8. 完成其余配置步骤。单击**完成**按钮后,您就完成了克隆操作。

    9. 在**虚拟机**选项卡中,右键单击您的虚拟机,然后选择**电源**→**开启电源**。

    10. 检查控制台输出以验证 Ignition 是否已运行。

      示例命令
      Ignition: ran on 2022/03/14 14:48:33 UTC (this boot)
      Ignition: user-provided config was applied
后续步骤
  • 按照前面步骤为每台机器操作,创建集群的其余机器。

    您必须在此处创建引导程序和控制平面机器。因为某些 Pod 默认情况下部署在计算机器上,所以在安装集群之前,还必须至少创建两台计算机器。

向 vSphere 中的集群添加更多计算机器

您可以向 VMware vSphere 上的用户配置的 OpenShift Container Platform 集群中添加更多计算机器。

在 OpenShift Container Platform 集群中部署 vSphere 模板后,您可以为该集群中的机器部署虚拟机 (VM)。

如果您正在安装三节点集群,请跳过此步骤。三节点集群由三台控制平面机器组成,它们也充当计算机器。

先决条件
  • 获取计算机器的 base64 编码 Ignition 文件。

  • 您可以访问为集群创建的 vSphere 模板。

步骤
  1. 右键单击模板的名称,然后单击**克隆**→**克隆到虚拟机**。

  2. 在**选择名称和文件夹**选项卡上,指定虚拟机的名称。您可以在名称中包含机器类型,例如compute-1

    确保整个 vSphere 安装中的所有虚拟机名称都是唯一的。

  3. 在**选择名称和文件夹**选项卡上,选择为集群创建的文件夹的名称。

  4. 在**选择计算资源**选项卡上,选择数据中心中主机的名称。

  5. 在**选择存储**选项卡上,选择配置和磁盘文件的存储位置。

  6. 在**选择克隆选项**选项卡上,选择**自定义此虚拟机的硬件**。

  7. 在**自定义硬件**选项卡上,单击**高级参数**。

    • 通过在**属性**和**值**字段中指定数据,添加以下配置参数名称和值。确保为创建的每个参数选择**添加**按钮。

      • guestinfo.ignition.config.data:粘贴此机器类型的 base64 编码计算 Ignition 配置文件的内容。

      • guestinfo.ignition.config.data.encoding:指定base64

      • disk.EnableUUID:指定TRUE

  8. 在**自定义硬件**选项卡的**虚拟硬件**面板中,根据需要修改指定的值。确保 RAM、CPU 和磁盘存储量满足机器类型的最低要求。如果存在多个网络,请选择**添加新设备**>**网络适配器**,然后在**新建网络**菜单项提供的字段中输入您的网络信息。

  9. 完成其余配置步骤。单击**完成**按钮后,您就完成了克隆操作。

  10. 在**虚拟机**选项卡中,右键单击您的虚拟机,然后选择**电源**→**开启电源**。

后续步骤
  • 继续为您的集群创建更多计算机器。

磁盘分区

在大多数情况下,数据分区最初是由安装 RHCOS 创建的,而不是由安装其他操作系统创建的。在这种情况下,应允许 OpenShift Container Platform 安装程序配置您的磁盘分区。

但是,在安装 OpenShift Container Platform 节点时,您可能需要干预以覆盖默认分区的情况有两种。

  • 创建单独的分区:对于空磁盘上的全新安装,您可能希望向分区添加单独的存储。这正式支持将/var/var的子目录(例如/var/lib/etcd)设为单独的分区,但不支持两者都设为单独分区。

    对于大于 100GB 的磁盘,尤其是大于 1TB 的磁盘,请创建单独的/var分区。有关更多信息,请参阅“创建单独的/var分区”以及这篇Red Hat 知识库文章

    Kubernetes 只支持两个文件系统分区。如果您向原始配置添加多个分区,Kubernetes 将无法监控所有分区。

  • 保留现有分区:对于在现有节点上重新安装 OpenShift Container Platform 并想要保留从先前操作系统安装的数据分区的棕地安装,既有允许您保留现有数据分区的引导参数,也有coreos-installer选项。

创建单独的/var分区

通常,OpenShift Container Platform 的磁盘分区应留给安装程序处理。但是,在某些情况下,您可能希望在预期会增长的文件系统部分创建单独的分区。

OpenShift Container Platform 支持添加单个分区以将存储附加到/var分区或/var的子目录。例如:

  • /var/lib/containers:保存与容器相关的內容,随着向系统添加更多镜像和容器,该内容可能会增长。

  • /var/lib/etcd:保存您可能出于性能优化 etcd 存储等目的而想要单独保留的数据。

  • /var:保存您可能出于审核等目的而想要单独保留的数据。

    对于大于 100GB 的磁盘,尤其是大于 1TB 的磁盘,请创建单独的/var分区。

单独存储/var目录的内容使您可以根据需要更轻松地增加这些区域的存储空间,并在以后重新安装 OpenShift Container Platform 并保持数据完整。使用此方法,您无需再次提取所有容器,也不需要在更新系统时复制海量日志文件。

由于在全新安装 Red Hat Enterprise Linux CoreOS (RHCOS) 之前必须存在/var目录,因此以下步骤通过在 OpenShift Container Platform 安装的openshift-install准备阶段插入机器配置清单来设置单独的/var分区。

步骤
  1. 创建一个目录来保存 OpenShift Container Platform 安装文件。

    $ mkdir $HOME/clusterconfig
  2. 运行openshift-install以在manifestopenshift子目录中创建一组文件。根据提示回答系统问题。

    $ openshift-install create manifests --dir $HOME/clusterconfig
    ? SSH Public Key ...
    $ ls $HOME/clusterconfig/openshift/
    99_kubeadmin-password-secret.yaml
    99_openshift-cluster-api_master-machines-0.yaml
    99_openshift-cluster-api_master-machines-1.yaml
    99_openshift-cluster-api_master-machines-2.yaml
    ...
  3. 创建一个 Butane 配置文件来配置附加分区。例如,将文件命名为$HOME/clusterconfig/98-var-partition.bu,将磁盘设备名称更改为worker系统上存储设备的名称,并根据需要设置存储大小。此示例将/var目录放在单独的分区上。

    variant: openshift
    version: 4.17.0
    metadata:
      labels:
        machineconfiguration.openshift.io/role: worker
      name: 98-var-partition
    storage:
      disks:
      - device: /dev/disk/by-id/<device_name> (1)
        partitions:
        - label: var
          start_mib: <partition_start_offset> (2)
          size_mib: <partition_size> (3)
          number: 5
      filesystems:
        - device: /dev/disk/by-partlabel/var
          path: /var
          format: xfs
          mount_options: [defaults, prjquota] (4)
          with_mount_unit: true
    1 您要分区的磁盘的存储设备名称。
    2 将数据分区添加到引导磁盘时,建议最小值为 25000 MiB。根文件系统会自动调整大小以填充所有可用空间,直到指定的偏移量。如果未指定值,或者指定的值小于建议的最小值,则生成的根文件系统将太小,并且将来重新安装 RHCOS 可能会覆盖数据分区的开头。
    3 数据分区的大小(以 MiB 为单位)。
    4 必须为用于容器存储的文件系统启用prjquota挂载选项。

    创建单独的/var分区时,如果不同的实例类型没有相同的设备名称,则不能为工作节点使用不同的实例类型。

  4. 从 Butane 配置文件创建清单,并将其保存到clusterconfig/openshift目录。例如,运行以下命令:

    $ butane $HOME/clusterconfig/98-var-partition.bu -o $HOME/clusterconfig/openshift/98-var-partition.yaml
  5. 再次运行openshift-install,以从manifestopenshift子目录中的一组文件创建 Ignition 配置文件。

    $ openshift-install create ignition-configs --dir $HOME/clusterconfig
    $ ls $HOME/clusterconfig/
    auth  bootstrap.ign  master.ign  metadata.json  worker.ign

现在,您可以使用 Ignition 配置文件作为输入到 vSphere 安装过程,以安装 Red Hat Enterprise Linux CoreOS (RHCOS) 系统。

等待引导过程完成

集群节点首次启动到已安装到磁盘的持久性 RHCOS 环境后,OpenShift Container Platform 引导过程开始。通过 Ignition 配置文件提供的信息用于初始化引导过程并在机器上安装 OpenShift Container Platform。您必须等待引导过程完成。

先决条件
  • 您已创建集群的 Ignition 配置文件。

  • 您已配置合适的网络、DNS 和负载均衡基础设施。

  • 您已获得安装程序并为您的集群生成了 Ignition 配置文件。

  • 您已在集群机器上安装 RHCOS,并提供了 OpenShift Container Platform 安装程序生成的 Ignition 配置文件。

  • 您的机器具有直接的互联网访问权限,或者可以使用 HTTP 或 HTTPS 代理。

步骤
  1. 监控引导过程

    $ ./openshift-install --dir <installation_directory> wait-for bootstrap-complete \ (1)
        --log-level=info (2)
    
    1 对于 `<installation_directory>`,请指定您存储安装文件的目录的路径。
    2 要查看不同的安装详细信息,请指定warndebugerror,而不是info
    示例输出
    INFO Waiting up to 30m0s for the Kubernetes API at https://api.test.example.com:6443...
    INFO API v1.30.3 up
    INFO Waiting up to 30m0s for bootstrapping to complete...
    INFO It is now safe to remove the bootstrap resources

    当 Kubernetes API 服务器发出信号表明它已在控制平面机器上引导时,命令成功。

  2. 引导过程完成后,从负载均衡器中删除引导机器。

    此时必须从负载均衡器中删除引导机器。您也可以删除或重新格式化引导机器本身。

使用 CLI 登录集群

您可以通过导出集群kubeconfig文件以默认系统用户的身份登录到您的集群。kubeconfig文件包含有关集群的信息,CLI 使用这些信息将客户端连接到正确的集群和 API 服务器。该文件特定于某个集群,并在 OpenShift Container Platform 安装期间创建。

先决条件
  • 您已部署 OpenShift Container Platform 集群。

  • 您已安装oc CLI。

步骤
  1. 导出kubeadmin凭据

    $ export KUBECONFIG=<installation_directory>/auth/kubeconfig (1)
    1 对于 `<installation_directory>`,请指定您存储安装文件的目录的路径。
  2. 验证您可以使用导出的配置成功运行oc命令。

    $ oc whoami
    示例输出
    system:admin

批准机器的证书签名请求 (CSR)

将机器添加到集群时,会为每个添加的机器生成两个挂起的证书签名请求 (CSR)。您必须确认这些 CSR 已获批准,或者如有必要,自行批准它们。必须先批准客户端请求,然后再批准服务器请求。

先决条件
  • 您已将机器添加到集群。

步骤
  1. 确认集群识别机器

    $ oc get nodes
    示例输出
    NAME      STATUS    ROLES   AGE  VERSION
    master-0  Ready     master  63m  v1.30.3
    master-1  Ready     master  63m  v1.30.3
    master-2  Ready     master  64m  v1.30.3

    输出列出了您创建的所有机器。

    在批准一些 CSR 之前,上述输出可能不包含计算节点(也称为工作节点)。

  2. 查看挂起的 CSR,并确保您看到为添加到集群的每台机器的客户端请求显示“Pending”(挂起)或“Approved”(已批准)状态。

    $ oc get csr
    示例输出
    NAME        AGE     REQUESTOR                                                                   CONDITION
    csr-8b2br   15m     system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending
    csr-8vnps   15m     system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending
    ...

    在此示例中,两台机器正在加入集群。您可能会在列表中看到更多已批准的 CSR。

  3. 如果 CSR 未获批准,在添加到集群的所有机器的挂起 CSR 都处于“Pending”(挂起)状态后,请批准集群机器的 CSR。

    由于 CSR 会自动轮换,因此在将机器添加到集群后一小时内批准您的 CSR。如果您在一小时内未批准它们,则证书将轮换,并且每个节点将存在两个以上的证书。您必须批准所有这些证书。批准客户端 CSR 后,Kubelet 会为服务证书创建辅助 CSR,这需要手动批准。然后,如果 Kubelet 请求具有相同参数的新证书,则machine-approver会自动批准后续的服务证书续订请求。

    对于在未启用机器 API 的平台(例如裸机和其他用户预配的基础设施)上运行的集群,您必须实现一种自动批准 kubelet 服务证书请求 (CSR) 的方法。如果未批准请求,则oc execoc rshoc logs命令将无法成功,因为当 API 服务器连接到 kubelet 时需要服务证书。任何联系 Kubelet 端点的操作都需要此证书批准到位。该方法必须监视新的 CSR,确认 CSR 是由system:nodesystem:admin组中的node-bootstrapper服务帐户提交的,并确认节点的身份。

    • 要单独批准它们,请对每个有效的 CSR 运行以下命令:

      $ oc adm certificate approve <csr_name> (1)
      1 <csr_name>是当前 CSR 列表中 CSR 的名称。
    • 要批准所有挂起的 CSR,请运行以下命令:

      $ oc get csr -o go-template='{{range .items}}{{if not .status}}{{.metadata.name}}{{"\n"}}{{end}}{{end}}' | xargs --no-run-if-empty oc adm certificate approve

      在批准一些 CSR 之前,某些 Operator 可能不可用。

  4. 现在您的客户端请求已获批准,您必须查看添加到集群的每台机器的服务器请求。

    $ oc get csr
    示例输出
    NAME        AGE     REQUESTOR                                                                   CONDITION
    csr-bfd72   5m26s   system:node:ip-10-0-50-126.us-east-2.compute.internal                       Pending
    csr-c57lv   5m26s   system:node:ip-10-0-95-157.us-east-2.compute.internal                       Pending
    ...
  5. 如果其余 CSR 未获批准且处于“Pending”(挂起)状态,请批准集群机器的 CSR。

    • 要单独批准它们,请对每个有效的 CSR 运行以下命令:

      $ oc adm certificate approve <csr_name> (1)
      1 <csr_name>是当前 CSR 列表中 CSR 的名称。
    • 要批准所有挂起的 CSR,请运行以下命令:

      $ oc get csr -o go-template='{{range .items}}{{if not .status}}{{.metadata.name}}{{"\n"}}{{end}}{{end}}' | xargs oc adm certificate approve
  6. 批准所有客户端和服务器 CSR 后,机器将具有“Ready”(就绪)状态。通过运行以下命令来验证这一点:

    $ oc get nodes
    示例输出
    NAME      STATUS    ROLES   AGE  VERSION
    master-0  Ready     master  73m  v1.30.3
    master-1  Ready     master  73m  v1.30.3
    master-2  Ready     master  74m  v1.30.3
    worker-0  Ready     worker  11m  v1.30.3
    worker-1  Ready     worker  11m  v1.30.3

    批准服务器 CSR 后,机器可能需要几分钟才能过渡到“Ready”(就绪)状态。

附加信息

初始 Operator 配置

控制平面初始化后,您必须立即配置一些 Operator,以便它们全部可用。

先决条件
  • 您的控制平面已初始化。

步骤
  1. 观察集群组件上线

    $ watch -n5 oc get clusteroperators
    示例输出
    NAME                                       VERSION   AVAILABLE   PROGRESSING   DEGRADED   SINCE
    authentication                             4.17.0    True        False         False      19m
    baremetal                                  4.17.0    True        False         False      37m
    cloud-credential                           4.17.0    True        False         False      40m
    cluster-autoscaler                         4.17.0    True        False         False      37m
    config-operator                            4.17.0    True        False         False      38m
    console                                    4.17.0    True        False         False      26m
    csi-snapshot-controller                    4.17.0    True        False         False      37m
    dns                                        4.17.0    True        False         False      37m
    etcd                                       4.17.0    True        False         False      36m
    image-registry                             4.17.0    True        False         False      31m
    ingress                                    4.17.0    True        False         False      30m
    insights                                   4.17.0    True        False         False      31m
    kube-apiserver                             4.17.0    True        False         False      26m
    kube-controller-manager                    4.17.0    True        False         False      36m
    kube-scheduler                             4.17.0    True        False         False      36m
    kube-storage-version-migrator              4.17.0    True        False         False      37m
    machine-api                                4.17.0    True        False         False      29m
    machine-approver                           4.17.0    True        False         False      37m
    machine-config                             4.17.0    True        False         False      36m
    marketplace                                4.17.0    True        False         False      37m
    monitoring                                 4.17.0    True        False         False      29m
    network                                    4.17.0    True        False         False      38m
    node-tuning                                4.17.0    True        False         False      37m
    openshift-apiserver                        4.17.0    True        False         False      32m
    openshift-controller-manager               4.17.0    True        False         False      30m
    openshift-samples                          4.17.0    True        False         False      32m
    operator-lifecycle-manager                 4.17.0    True        False         False      37m
    operator-lifecycle-manager-catalog         4.17.0    True        False         False      37m
    operator-lifecycle-manager-packageserver   4.17.0    True        False         False      32m
    service-ca                                 4.17.0    True        False         False      38m
    storage                                    4.17.0    True        False         False      37m
  2. 配置不可用的 Operator。

安装过程中删除的镜像注册表

在不提供可共享对象存储的平台上,OpenShift镜像注册表操作符自身启动为已移除状态。这允许openshift-installer在这些平台类型上完成安装。

安装后,您必须编辑镜像注册表操作符配置,将managementState已移除更改为已管理。完成后,您必须配置存储。

镜像注册表存储配置

对于不提供默认存储的平台,镜像注册表操作符最初不可用。安装后,您必须配置注册表以使用存储,以便使注册表操作符可用。

此处显示了配置持久卷的说明,这是生产集群所需的。在适用情况下,将显示将空目录配置为存储位置的说明,此选项仅适用于非生产集群。

提供了其他说明,用于在升级期间通过使用Recreate滚动策略来允许镜像注册表使用块存储类型。

为VMware vSphere配置注册表存储

作为集群管理员,安装后,您必须配置注册表以使用存储。

先决条件
  • 集群管理员权限。

  • VMware vSphere上的集群。

  • 为您的集群配置的持久性存储,例如Red Hat OpenShift Data Foundation。

    当您只有一个副本时,OpenShift Container Platform支持镜像注册表存储的ReadWriteOnce访问。ReadWriteOnce访问还需要注册表使用Recreate滚动策略。要部署支持具有两个或多个副本的高可用性的镜像注册表,需要ReadWriteMany访问。

  • 必须具有“100Gi”容量。

测试表明,使用RHEL上的NFS服务器作为核心服务的存储后端存在问题。这包括OpenShift Container Registry和Quay,用于监控存储的Prometheus以及用于日志存储的Elasticsearch。因此,不建议使用RHEL NFS来支持核心服务使用的PV。

市场上的其他NFS实现可能不会出现这些问题。请联系各个NFS实现供应商,以获取有关可能针对这些OpenShift Container Platform核心组件完成的任何测试的更多信息。

步骤
  1. 要配置注册表以使用存储,请更改configs.imageregistry/cluster资源中的spec.storage.pvc

    使用共享存储时,请查看您的安全设置以防止外部访问。

  2. 验证您没有注册表Pod

    $ oc get pod -n openshift-image-registry -l docker-registry=default
    示例输出
    No resourses found in openshift-image-registry namespace

    如果您的输出中确实有注册表Pod,则无需继续执行此过程。

  3. 检查注册表配置

    $ oc edit configs.imageregistry.operator.openshift.io
    示例输出
    storage:
      pvc:
        claim: (1)
    1 保留claim字段为空,以允许自动创建image-registry-storage持久卷声明 (PVC)。PVC是根据默认存储类生成的。但是,请注意,默认存储类可能提供ReadWriteOnce (RWO)卷,例如RADOS块设备 (RBD),当您复制到多个副本时,这可能会导致问题。
  4. 检查clusteroperator状态

    $ oc get clusteroperator image-registry
    示例输出
    NAME             VERSION                              AVAILABLE   PROGRESSING   DEGRADED   SINCE   MESSAGE
    image-registry   4.7                                  True        False         False      6h50m

配置非生产集群中镜像注册表的存储

您必须为镜像注册表操作符配置存储。对于非生产集群,您可以将镜像注册表设置为空目录。如果您这样做,如果您重新启动注册表,所有镜像都将丢失。

步骤
  • 要将镜像注册表存储设置为空目录

    $ oc patch configs.imageregistry.operator.openshift.io cluster --type merge --patch '{"spec":{"storage":{"emptyDir":{}}}}'

    仅为非生产集群配置此选项。

    如果您在镜像注册表操作符初始化其组件之前运行此命令,则oc patch命令将失败并显示以下错误

    Error from server (NotFound): configs.imageregistry.operator.openshift.io "cluster" not found

    等待几分钟,然后再次运行该命令。

为VMware vSphere配置块注册表存储

要允许镜像注册表在升级期间作为集群管理员使用块存储类型(例如vSphere虚拟机磁盘 (VMDK)),您可以使用Recreate滚动策略。

块存储卷受支持,但不建议在生产集群中与镜像注册表一起使用。在块存储上配置注册表的安装不是高可用的,因为注册表不能有多个副本。

步骤
  1. 输入以下命令以将镜像注册表存储设置为块存储类型,修补注册表以使其使用Recreate滚动策略,并仅使用1个副本运行

    $ oc patch config.imageregistry.operator.openshift.io/cluster --type=merge -p '{"spec":{"rolloutStrategy":"Recreate","replicas":1}}'
  2. 为块存储设备配置PV,并为该卷创建PVC。请求的块卷使用ReadWriteOnce (RWO)访问模式。

    1. 创建一个包含以下内容的pvc.yaml文件以定义VMware vSphere PersistentVolumeClaim对象

      kind: PersistentVolumeClaim
      apiVersion: v1
      metadata:
        name: image-registry-storage (1)
        namespace: openshift-image-registry (2)
      spec:
        accessModes:
        - ReadWriteOnce (3)
        resources:
          requests:
            storage: 100Gi (4)
      1 表示PersistentVolumeClaim对象的唯一名称。
      2 PersistentVolumeClaim对象的命名空间,即openshift-image-registry
      3 持久卷声明的访问模式。使用ReadWriteOnce,该卷可以由单个节点以读写权限挂载。
      4 持久卷声明的大小。
    2. 输入以下命令以从文件创建PersistentVolumeClaim对象

      $ oc create -f pvc.yaml -n openshift-image-registry
  3. 输入以下命令以编辑注册表配置,使其引用正确的PVC

    $ oc edit config.imageregistry.operator.openshift.io -o yaml
    示例输出
    storage:
      pvc:
        claim: (1)
    1 通过创建自定义PVC,您可以将claim字段保留为空,以便默认情况下自动创建image-registry-storage PVC。

有关配置注册表存储以使其引用正确的PVC的说明,请参见为vSphere配置注册表

完成用户提供的基础架构上的安装

完成操作符配置后,您可以完成在您提供的基础架构上安装集群。

先决条件
  • 您的控制平面已初始化。

  • 您已完成初始操作符配置。

步骤
  1. 使用以下命令确认所有集群组件都联机

    $ watch -n5 oc get clusteroperators
    示例输出
    NAME                                       VERSION   AVAILABLE   PROGRESSING   DEGRADED   SINCE
    authentication                             4.17.0    True        False         False      19m
    baremetal                                  4.17.0    True        False         False      37m
    cloud-credential                           4.17.0    True        False         False      40m
    cluster-autoscaler                         4.17.0    True        False         False      37m
    config-operator                            4.17.0    True        False         False      38m
    console                                    4.17.0    True        False         False      26m
    csi-snapshot-controller                    4.17.0    True        False         False      37m
    dns                                        4.17.0    True        False         False      37m
    etcd                                       4.17.0    True        False         False      36m
    image-registry                             4.17.0    True        False         False      31m
    ingress                                    4.17.0    True        False         False      30m
    insights                                   4.17.0    True        False         False      31m
    kube-apiserver                             4.17.0    True        False         False      26m
    kube-controller-manager                    4.17.0    True        False         False      36m
    kube-scheduler                             4.17.0    True        False         False      36m
    kube-storage-version-migrator              4.17.0    True        False         False      37m
    machine-api                                4.17.0    True        False         False      29m
    machine-approver                           4.17.0    True        False         False      37m
    machine-config                             4.17.0    True        False         False      36m
    marketplace                                4.17.0    True        False         False      37m
    monitoring                                 4.17.0    True        False         False      29m
    network                                    4.17.0    True        False         False      38m
    node-tuning                                4.17.0    True        False         False      37m
    openshift-apiserver                        4.17.0    True        False         False      32m
    openshift-controller-manager               4.17.0    True        False         False      30m
    openshift-samples                          4.17.0    True        False         False      32m
    operator-lifecycle-manager                 4.17.0    True        False         False      37m
    operator-lifecycle-manager-catalog         4.17.0    True        False         False      37m
    operator-lifecycle-manager-packageserver   4.17.0    True        False         False      32m
    service-ca                                 4.17.0    True        False         False      38m
    storage                                    4.17.0    True        False         False      37m

    或者,以下命令会在所有集群可用时通知您。它还会检索并显示凭据

    $ ./openshift-install --dir <installation_directory> wait-for install-complete (1)
    1 对于 `<installation_directory>`,请指定您存储安装文件的目录的路径。
    示例输出
    INFO Waiting up to 30m0s for the cluster to initialize...

    当集群版本操作符完成从Kubernetes API服务器部署OpenShift Container Platform集群时,该命令将成功。

    • 安装程序生成的 Ignition 配置文件包含在 24 小时后过期的证书,这些证书会在那时续订。如果集群在续订证书之前关闭,并且 24 小时后重新启动,集群会自动恢复过期的证书。例外情况是,您必须手动批准挂起的node-bootstrapper证书签名请求 (CSR) 以恢复 kubelet 证书。有关更多信息,请参阅恢复过期的控制平面证书文档。

    • 建议您在生成 Ignition 配置文件后 12 小时内使用它们,因为 24 小时证书会在集群安装后 16 到 22 小时之间轮换。通过在 12 小时内使用 Ignition 配置文件,如果证书更新在安装期间运行,您可以避免安装失败。

  2. 确认 Kubernetes API 服务器正在与 Pod 通信。

    1. 要查看所有 Pod 的列表,请使用以下命令

      $ oc get pods --all-namespaces
      示例输出
      NAMESPACE                         NAME                                            READY   STATUS      RESTARTS   AGE
      openshift-apiserver-operator      openshift-apiserver-operator-85cb746d55-zqhs8   1/1     Running     1          9m
      openshift-apiserver               apiserver-67b9g                                 1/1     Running     0          3m
      openshift-apiserver               apiserver-ljcmx                                 1/1     Running     0          1m
      openshift-apiserver               apiserver-z25h4                                 1/1     Running     0          2m
      openshift-authentication-operator authentication-operator-69d5d8bf84-vh2n8        1/1     Running     0          5m
      ...
    2. 使用以下命令查看上一个命令输出中列出的 Pod 的日志

      $ oc logs <pod_name> -n <namespace> (1)
      1 指定 Pod 名称和命名空间,如上一个命令的输出所示。

      如果显示 Pod 日志,则 Kubernetes API 服务器可以与集群机器通信。

  3. 对于使用光纤通道协议 (FCP) 的安装,需要额外步骤来启用多路径。请勿在安装过程中启用多路径。

    有关更多信息,请参阅安装后机器配置任务文档中的“在 RHCOS 上使用内核参数启用多路径”。

您可以在集群安装完成后添加额外的计算机器,方法是按照向 vSphere 添加计算机器中的说明操作。

配置 vSphere DRS 反亲和性规则以用于控制平面节点

可以配置 vSphere 分布式资源调度程序 (DRS) 反亲和性规则以支持 OpenShift Container Platform 控制平面节点的更高可用性。反亲和性规则确保 OpenShift Container Platform 控制平面节点的 vSphere 虚拟机不会调度到同一个 vSphere 主机。

  • 以下信息仅适用于计算 DRS,不适用于存储 DRS。

  • govc 命令是 VMware 提供的开源命令;Red Hat 不提供此命令。Red Hat 支持不支持govc 命令。

  • 有关下载和安装govc 的说明,请访问 VMware 文档网站。

通过运行以下命令创建反亲和性规则

示例命令
$ govc cluster.rule.create \
  -name openshift4-control-plane-group \
  -dc MyDatacenter -cluster MyCluster \
  -enable \
  -anti-affinity master-0 master-1 master-2

创建规则后,vSphere 会自动迁移控制平面节点,以确保它们不会在同一主机上运行。这可能需要一些时间,vSphere 才能协调新规则。以下过程显示了命令成功完成。

迁移会自动发生,并且在迁移完成之前可能会导致 OpenShift API 短暂中断或延迟。

如果控制平面虚拟机名称发生更改或迁移到新的 vSphere 集群,则需要手动更新 vSphere DRS 反亲和性规则。

步骤
  1. 通过运行以下命令删除任何现有的 DRS 反亲和性规则

    $ govc cluster.rule.remove \
      -name openshift4-control-plane-group \
      -dc MyDatacenter -cluster MyCluster
    示例输出
    [13-10-22 09:33:24] Reconfigure /MyDatacenter/host/MyCluster...OK
  2. 使用更新的名称再次创建规则,方法是运行以下命令

    $ govc cluster.rule.create \
      -name openshift4-control-plane-group \
      -dc MyDatacenter -cluster MyOtherCluster \
      -enable \
      -anti-affinity master-0 master-1 master-2

OpenShift Container Platform 的遥测访问

在 OpenShift Container Platform 4.17 中,默认情况下运行的遥测服务用于提供有关集群运行状况和更新成功的指标,需要访问互联网。如果您的集群连接到互联网,则遥测会自动运行,并且您的集群会注册到OpenShift 集群管理器

确认您的OpenShift 集群管理器清单正确后(由遥测自动维护或使用 OpenShift 集群管理器手动维护),使用订阅监控来跟踪您在帐户或多集群级别上的 OpenShift Container Platform 订阅。

其他资源

后续步骤