限制和可扩展性 | 准备您的环境 | AWS 上的 Red Hat OpenShift 服务

集群最大值
OpenShift Container Platform 测试环境和配置
控制平面和基础设施节点的大小和扩展
后续步骤
其他资源

本文档详细介绍了在 AWS 上运行的 Red Hat OpenShift Service (ROSA) 集群的测试集群最大值，以及有关用于测试最大值的测试环境和配置的信息。还提供了有关控制平面和基础设施节点大小和扩展的信息。

集群最大值

规划 Red Hat OpenShift Service on AWS (ROSA) 集群安装时，请考虑以下经过测试的对象最大值。该表指定了 (ROSA) 集群中每种测试类型的最大限制。

这些准则是基于在多可用区配置中拥有 180 个计算（也称为工作节点）的集群。对于较小的集群，最大值较低。

表 1. 经过测试的集群最大值
最大类型	4.x 测试最大值
Pod 数量^[1]	25,000
每个节点的 Pod 数量	250
每个核心的 Pod 数量	没有默认值
命名空间数量^[2]	5,000
每个命名空间的 Pod 数量^[3]	25,000
服务数量^[4]	10,000
每个命名空间的服务数量	5,000
每个服务的后台数量	5,000
每个命名空间的部署数量^[3]	2,000

此处显示的 Pod 数量是测试 Pod 的数量。实际的 Pod 数量取决于应用程序的内存、CPU 和存储要求。
如果活动项目数量很多，如果键空间增长过大并超过空间配额，etcd 可能会出现性能下降。强烈建议定期维护 etcd，包括碎片整理，以使 etcd 存储可用。
系统中有一些控制循环必须迭代给定命名空间中的所有对象，以应对状态的一些变化。在一个命名空间中拥有大量某种类型的对象会使这些循环变得昂贵，并减慢状态更改的处理速度。此限制假设系统拥有足够的 CPU、内存和磁盘来满足应用程序的要求。
每个服务端口和每个服务后端在iptables中都有相应的条目。给定服务的后台数量会影响端点对象的大小，然后影响整个系统发送的数据大小。

编辑

OpenShift Container Platform 测试环境和配置

下表列出了在 AWS 云平台上测试集群最大值的 OpenShift Container Platform 环境和配置。

节点	类型	vCPU	RAM（GiB）	磁盘类型	磁盘大小（GiB）/IOPS	数量	区域
控制平面/etcd^[1]	m5.4xlarge	16	64	gp3	350 / 1,000	3	us-west-2
基础设施节点^[2]	r5.2xlarge	8	64	gp3	300 / 900	3	us-west-2
工作负载^[3]	m5.2xlarge	8	32	gp3	350 / 900	3	us-west-2
计算节点	m5.2xlarge	8	32	gp3	350 / 900	102	us-west-2

节点

类型

vCPU

RAM（GiB）

磁盘类型

磁盘大小（GiB）/IOPS

数量

区域

控制平面/etcd^[1]

m5.4xlarge

gp3

350 / 1,000

us-west-2

基础设施节点^[2]

r5.2xlarge

gp3

300 / 900

us-west-2

工作负载^[3]

m5.2xlarge

gp3

350 / 900

us-west-2

计算节点

m5.2xlarge

gp3

350 / 900

102

us-west-2

在 4.10 之前的版本中，控制平面/etcd 节点使用 io1 磁盘。
基础设施节点用于托管监控组件，因为 Prometheus 可以根据使用模式占用大量内存。
工作负载节点专用于运行性能和可扩展性工作负载生成器。

可能可以达到更大的集群规模和更高的对象数量。但是，基础设施节点的大小限制了 Prometheus 可用的内存量。创建、修改或删除对象时，Prometheus 会在其内存中存储大约 3 小时的指标，然后才将指标持久保存到磁盘。如果对象创建、修改或删除的速率过高，由于缺乏内存资源，Prometheus 可能会不堪重负而失败。

控制平面和基础设施节点的大小和扩展

安装 Red Hat OpenShift Service on AWS (ROSA) 集群时，控制平面和基础设施节点的大小将由计算节点数量自动确定。

如果安装后更改集群中的计算节点数量，Red Hat 站点可靠性工程 (SRE) 团队会根据需要扩展控制平面和基础设施节点，以保持集群稳定性。

编辑

安装期间的节点大小

在安装过程中，控制平面和基础设施节点的大小将动态计算。大小计算基于集群中计算节点的数量。

下表列出了安装期间应用的控制平面和基础设施节点大小。

计算节点数量	控制平面大小	基础设施节点大小
1 到 25	m5.2xlarge	r5.xlarge
26 到 100	m5.4xlarge	r5.2xlarge
101 到 180	m5.8xlarge	r5.4xlarge

计算节点数量

控制平面大小

基础设施节点大小

1 到 25

m5.2xlarge

r5.xlarge

26 到 100

m5.4xlarge

r5.2xlarge

101 到 180

m5.8xlarge

r5.4xlarge

ROSA 上计算节点的最大数量为 180。

安装后的节点扩展

如果安装后更改计算节点的数量，则 Red Hat 站点可靠性工程 (SRE) 团队会根据需要扩展控制平面和基础设施节点。扩展节点是为了保持平台稳定性。

控制平面和基础设施节点的安装后扩展要求将逐案评估。将考虑节点资源消耗和收到的警报。

控制平面节点调整大小警报规则

当出现以下情况时，会为集群中的控制平面节点触发调整大小警报

控制平面节点在集群中的平均利用率超过 66%。

ROSA 上计算节点的最大数量为 180。

基础设施节点调整大小警报规则

当集群具有高持续 CPU 或内存利用率时，会为集群中的基础设施节点触发调整大小警报。此高持续利用率状态为

在使用 2 个基础设施节点的单可用区集群中，基础设施节点的平均利用率超过 50%。

在使用 3 个基础设施节点的多可用区集群中，基础设施节点的平均利用率超过 66%。

ROSA 上计算节点的最大数量为 180。

调整大小的警报只有在持续高利用率一段时间后才会出现。短暂的利用率峰值（例如，一个节点暂时宕机导致另一个节点向上扩展）不会触发这些警报。

SRE 团队可能会出于其他原因扩展控制平面和基础设施节点，例如管理节点上资源消耗的增加。

应用扩展后，客户会通过服务日志条目收到通知。有关服务日志的更多信息，请参阅《访问 ROSA 集群的服务日志》。

大型集群的规模考虑

对于大型集群，基础设施节点的大小可能会成为影响可扩展性的一个重要因素。许多因素都会影响所述阈值，包括 etcd 版本或存储数据格式。

超过这些限制并不一定意味着集群会失败。在大多数情况下，超过这些数字会导致整体性能下降。

编辑

后续步骤

规划您的环境

其他资源

使用 Red Hat Hybrid Cloud Console 查看集群通知