限制和可扩展性 | 环境规划 | OpenShift Dedicated

集群最大值
OpenShift Container Platform 测试环境和配置
控制平面和基础设施节点的大小和扩展

本文档详细介绍了 OpenShift Dedicated 集群的测试集群最大值，以及用于测试最大值的测试环境和配置信息。还提供了有关控制平面和基础设施节点大小和扩展的信息。

集群最大值

规划 OpenShift Dedicated 集群安装时，请考虑以下测试对象最大值。该表指定了 OpenShift Dedicated 集群中每种测试类型的最大限制。

这些指南基于在多可用区配置中具有 180 个计算（也称为工作节点）的集群。对于较小的集群，最大值较低。

表 1. 测试集群最大值
最大类型	4.x 测试最大值
Pod 数量^[1]	25,000
每个节点的 Pod 数量	250
每个核心的 Pod 数量	没有默认值
命名空间数量^[2]	5,000
每个命名空间的 Pod 数量^[3]	25,000
服务数量^[4]	10,000
每个命名空间的服务数量	5,000
每个服务的后台数量	5,000
每个命名空间的部署数量^[3]	2,000

此处显示的 Pod 计数是测试 Pod 的数量。实际 Pod 数量取决于应用程序的内存、CPU 和存储要求。
如果活动项目数量很大，并且密钥空间增长过大并超过空间配额，etcd 的性能可能会下降。强烈建议定期维护 etcd，包括碎片整理，以使 etcd 存储可用。
系统中存在多个控制循环，这些循环必须迭代给定命名空间中的所有对象，以响应状态的一些更改。在一个命名空间中拥有大量某种类型的对象会使这些循环变得昂贵，并减慢状态更改的处理速度。该限制假设系统拥有足够的 CPU、内存和磁盘来满足应用程序的要求。
每个服务端口和每个服务后端在iptables中都有一个对应的条目。给定服务的后台数量会影响端点对象的大小，然后影响整个系统发送的数据大小。

OpenShift Container Platform 测试环境和配置

下表列出了在 AWS 云平台上测试集群最大值的 OpenShift Container Platform 环境和配置。

节点	类型	vCPU	RAM(GiB)	磁盘类型	磁盘大小(GiB)/IOPS	数量	区域
控制平面/etcd^[1]	m5.4xlarge	16	64	gp3	350 / 1,000	3	us-west-2
基础设施节点^[2]	r5.2xlarge	8	64	gp3	300 / 900	3	us-west-2
工作负载^[3]	m5.2xlarge	8	32	gp3	350 / 900	3	us-west-2
计算节点	m5.2xlarge	8	32	gp3	350 / 900	102	us-west-2

节点

类型

vCPU

RAM(GiB)

磁盘类型

磁盘大小(GiB)/IOPS

数量

区域

控制平面/etcd^[1]

m5.4xlarge

gp3

350 / 1,000

us-west-2

基础设施节点^[2]

r5.2xlarge

gp3

300 / 900

us-west-2

工作负载^[3]

m5.2xlarge

gp3

350 / 900

us-west-2

计算节点

m5.2xlarge

gp3

350 / 900

102

us-west-2

在 4.10 之前的版本中，控制平面/etcd 节点使用 io1 磁盘。
基础设施节点用于托管监控组件，因为 Prometheus 可以根据使用模式占用大量内存。
工作负载节点专用于运行性能和可扩展性工作负载生成器。

可能可以达到更大的集群规模和更高的对象数量。但是，基础设施节点的大小限制了 Prometheus 可用的内存量。在创建、修改或删除对象时，Prometheus 会将其指标存储在其内存中大约 3 个小时，然后再将指标持久化到磁盘。如果对象创建、修改或删除的速率过高，则由于缺乏内存资源，Prometheus 可能会不堪重负而失败。

控制平面和基础设施节点的大小和扩展

安装 OpenShift Dedicated 集群时，控制平面和基础设施节点的大小将由计算节点数量自动确定。

如果安装后更改集群中的计算节点数量，Red Hat 站点可靠性工程 (SRE) 团队会根据需要扩展控制平面和基础设施节点，以保持集群稳定性。

安装期间的节点大小

在安装过程中，控制平面和基础设施节点的大小会动态计算。大小计算基于集群中的计算节点数量。

下表列出了安装过程中应用的控制平面和基础设施节点大小。

AWS控制平面和基础设施节点大小

计算节点数量	控制平面大小	基础设施节点大小
1 到 25	m5.2xlarge	r5.xlarge
26 到 100	m5.4xlarge	r5.2xlarge
101 到 180	m5.8xlarge	r5.4xlarge

计算节点数量

控制平面大小

基础设施节点大小

1 到 25

m5.2xlarge

r5.xlarge

26 到 100

m5.4xlarge

r5.2xlarge

101 到 180

m5.8xlarge

r5.4xlarge

GCP控制平面和基础设施节点大小

计算节点数量	控制平面大小	基础设施节点大小
1 到 25	custom-8-32768	custom-4-32768-ext
26 到 100	custom-16-65536	custom-8-65536-ext
101 到 180	custom-32-131072	custom-16-131072-ext

计算节点数量

控制平面大小

基础设施节点大小

1 到 25

custom-8-32768

custom-4-32768-ext

26 到 100

custom-16-65536

custom-8-65536-ext

101 到 180

custom-32-131072

custom-16-131072-ext

2024年6月21日或之后创建的集群的GCP控制平面和基础设施节点大小

计算节点数量	控制平面大小	基础设施节点大小
1 到 25	n2-standard-8	n2-highmem-4
26 到 100	n2-standard-16	n2-highmem-8
101 到 180	n2-standard-32	n2-highmem-16

计算节点数量

控制平面大小

基础设施节点大小

1 到 25

n2-standard-8

n2-highmem-4

26 到 100

n2-standard-16

n2-highmem-8

101 到 180

n2-standard-32

n2-highmem-16

OpenShift Dedicated上的计算节点最大数量为180。

安装后的节点扩展

如果在安装后更改计算节点的数量，则控制平面和基础设施节点将根据需要由Red Hat站点可靠性工程 (SRE) 团队进行扩展。节点扩展是为了维护平台稳定性。

安装后控制平面和基础设施节点的扩展需求将根据具体情况进行评估。将考虑节点资源消耗和收到的警报。

控制平面节点调整大小警报规则

当发生以下情况时，将为集群中的控制平面节点触发调整大小警报

控制平面节点在集群中平均利用率超过66%。

OpenShift Dedicated上的计算节点最大数量为180。

基础设施节点调整大小警报规则

当集群具有高持续CPU或内存利用率时，将为集群中的基础设施节点触发调整大小警报。这种高持续利用率状态是

使用2个基础设施节点的单可用区集群中，基础设施节点平均利用率超过50%。

使用3个基础设施节点的多可用区集群中，基础设施节点平均利用率超过66%。

OpenShift Dedicated上的计算节点最大数量为180。

只有在持续的高利用率一段时间后，调整大小警报才会出现。短暂的用量峰值（例如，节点暂时宕机导致另一个节点向上扩展）不会触发这些警报。

SRE团队可能会出于其他原因扩展控制平面和基础设施节点，例如管理节点上资源消耗的增加。

大型集群的规模考虑

对于大型集群，基础设施节点的大小可能会成为影响可扩展性的重要因素。许多因素都会影响所述阈值，包括etcd版本或存储数据格式。

超过这些限制并不一定意味着集群会失败。在大多数情况下，超过这些数字会导致整体性能降低。