×

本文档详细介绍了在 AWS 上运行的 Red Hat OpenShift Service (ROSA) 集群的测试集群最大值,以及有关用于测试最大值的测试环境和配置的信息。还提供了有关控制平面和基础设施节点大小和扩展的信息。

集群最大值

规划 Red Hat OpenShift Service on AWS (ROSA) 集群安装时,请考虑以下经过测试的对象最大值。该表指定了 (ROSA) 集群中每种测试类型的最大限制。

这些准则是基于在多可用区配置中拥有 180 个计算(也称为工作节点)的集群。对于较小的集群,最大值较低。

表 1. 经过测试的集群最大值
最大类型 4.x 测试最大值

Pod 数量[1]

25,000

每个节点的 Pod 数量

250

每个核心的 Pod 数量

没有默认值

命名空间数量[2]

5,000

每个命名空间的 Pod 数量[3]

25,000

服务数量[4]

10,000

每个命名空间的服务数量

5,000

每个服务的后台数量

5,000

每个命名空间的部署数量[3]

2,000

  1. 此处显示的 Pod 数量是测试 Pod 的数量。实际的 Pod 数量取决于应用程序的内存、CPU 和存储要求。

  2. 如果活动项目数量很多,如果键空间增长过大并超过空间配额,etcd 可能会出现性能下降。强烈建议定期维护 etcd,包括碎片整理,以使 etcd 存储可用。

  3. 系统中有一些控制循环必须迭代给定命名空间中的所有对象,以应对状态的一些变化。在一个命名空间中拥有大量某种类型的对象会使这些循环变得昂贵,并减慢状态更改的处理速度。此限制假设系统拥有足够的 CPU、内存和磁盘来满足应用程序的要求。

  4. 每个服务端口和每个服务后端在iptables中都有相应的条目。给定服务的后台数量会影响端点对象的大小,然后影响整个系统发送的数据大小。

OpenShift Container Platform 测试环境和配置

下表列出了在 AWS 云平台上测试集群最大值的 OpenShift Container Platform 环境和配置。

节点 类型 vCPU RAM(GiB) 磁盘类型 磁盘大小(GiB)/IOPS 数量 区域

控制平面/etcd[1]

m5.4xlarge

16

64

gp3

350 / 1,000

3

us-west-2

基础设施节点[2]

r5.2xlarge

8

64

gp3

300 / 900

3

us-west-2

工作负载[3]

m5.2xlarge

8

32

gp3

350 / 900

3

us-west-2

计算节点

m5.2xlarge

8

32

gp3

350 / 900

102

us-west-2

  1. 在 4.10 之前的版本中,控制平面/etcd 节点使用 io1 磁盘。

  2. 基础设施节点用于托管监控组件,因为 Prometheus 可以根据使用模式占用大量内存。

  3. 工作负载节点专用于运行性能和可扩展性工作负载生成器。

可能可以达到更大的集群规模和更高的对象数量。但是,基础设施节点的大小限制了 Prometheus 可用的内存量。创建、修改或删除对象时,Prometheus 会在其内存中存储大约 3 小时的指标,然后才将指标持久保存到磁盘。如果对象创建、修改或删除的速率过高,由于缺乏内存资源,Prometheus 可能会不堪重负而失败。

控制平面和基础设施节点的大小和扩展

安装 Red Hat OpenShift Service on AWS (ROSA) 集群时,控制平面和基础设施节点的大小将由计算节点数量自动确定。

如果安装后更改集群中的计算节点数量,Red Hat 站点可靠性工程 (SRE) 团队会根据需要扩展控制平面和基础设施节点,以保持集群稳定性。

安装期间的节点大小

在安装过程中,控制平面和基础设施节点的大小将动态计算。大小计算基于集群中计算节点的数量。

下表列出了安装期间应用的控制平面和基础设施节点大小。

计算节点数量 控制平面大小 基础设施节点大小

1 到 25

m5.2xlarge

r5.xlarge

26 到 100

m5.4xlarge

r5.2xlarge

101 到 180

m5.8xlarge

r5.4xlarge

ROSA 上计算节点的最大数量为 180。

安装后的节点扩展

如果安装后更改计算节点的数量,则 Red Hat 站点可靠性工程 (SRE) 团队会根据需要扩展控制平面和基础设施节点。扩展节点是为了保持平台稳定性。

控制平面和基础设施节点的安装后扩展要求将逐案评估。将考虑节点资源消耗和收到的警报。

控制平面节点调整大小警报规则

当出现以下情况时,会为集群中的控制平面节点触发调整大小警报

  • 控制平面节点在集群中的平均利用率超过 66%。

    ROSA 上计算节点的最大数量为 180。

基础设施节点调整大小警报规则

当集群具有高持续 CPU 或内存利用率时,会为集群中的基础设施节点触发调整大小警报。此高持续利用率状态为

  • 在使用 2 个基础设施节点的单可用区集群中,基础设施节点的平均利用率超过 50%。

  • 在使用 3 个基础设施节点的多可用区集群中,基础设施节点的平均利用率超过 66%。

    ROSA 上计算节点的最大数量为 180。

    调整大小的警报只有在持续高利用率一段时间后才会出现。短暂的利用率峰值(例如,一个节点暂时宕机导致另一个节点向上扩展)不会触发这些警报。

SRE 团队可能会出于其他原因扩展控制平面和基础设施节点,例如管理节点上资源消耗的增加。

应用扩展后,客户会通过服务日志条目收到通知。有关服务日志的更多信息,请参阅《访问 ROSA 集群的服务日志》。

大型集群的规模考虑

对于大型集群,基础设施节点的大小可能会成为影响可扩展性的一个重要因素。许多因素都会影响所述阈值,包括 etcd 版本或存储数据格式。

超过这些限制并不一定意味着集群会失败。在大多数情况下,超过这些数字会导致整体性能下降。

后续步骤