$ cat <install_dir>/.openshift_install.log
您可以按照本文档中的步骤,在安装后检查 OpenShift Container Platform 集群的状态。
您可以查看 OpenShift Container Platform 安装日志中安装的摘要。如果安装成功,则日志中包含访问集群所需的信息。
您可以访问安装主机。
查看安装主机安装目录中的 `.openshift_install.log` 日志文件
$ cat <install_dir>/.openshift_install.log
如果安装成功,则集群凭据包含在日志的末尾,如下例所示
...
time="2020-12-03T09:50:47Z" level=info msg="Install complete!"
time="2020-12-03T09:50:47Z" level=info msg="To access the cluster as the system:admin user when using 'oc', run 'export KUBECONFIG=/home/myuser/install_dir/auth/kubeconfig'"
time="2020-12-03T09:50:47Z" level=info msg="Access the OpenShift web-console here: https://console-openshift-console.apps.mycluster.example.com"
time="2020-12-03T09:50:47Z" level=info msg="Login to the console with user: \"kubeadmin\", and password: \"password\""
time="2020-12-03T09:50:47Z" level=debug msg="Time elapsed per stage:"
time="2020-12-03T09:50:47Z" level=debug msg=" Infrastructure: 6m45s"
time="2020-12-03T09:50:47Z" level=debug msg="Bootstrap Complete: 11m30s"
time="2020-12-03T09:50:47Z" level=debug msg=" Bootstrap Destroy: 1m5s"
time="2020-12-03T09:50:47Z" level=debug msg=" Cluster Operators: 17m31s"
time="2020-12-03T09:50:47Z" level=info msg="Time elapsed: 37m26s"
对于具有不受限制的网络连接的集群,您可以使用节点上的命令(例如 `crictl images`)查看已拉取镜像的源。
但是,对于断开连接的安装,要查看已拉取镜像的源,必须查看 CRI-O 日志以找到 `Trying to access` 日志条目,如下面的步骤所示。其他查看镜像拉取源的方法(例如 `crictl images` 命令)会显示非镜像镜像名称,即使镜像是从镜像位置拉取的。
您可以作为具有 `cluster-admin` 角色的用户访问集群。
查看主节点或工作节点的 CRI-O 日志
$ oc adm node-logs <node_name> -u crio
`Trying to access` 日志条目指示镜像从何处拉取。
...
Mar 17 02:52:50 ip-10-0-138-140.ec2.internal crio[1366]: time="2021-08-05 10:33:21.594930907Z" level=info msg="Pulling image: quay.io/openshift-release-dev/ocp-release:4.10.0-ppc64le" id=abcd713b-d0e1-4844-ac1c-474c5b60c07c name=/runtime.v1alpha2.ImageService/PullImage
Mar 17 02:52:50 ip-10-0-138-140.ec2.internal crio[1484]: time="2021-03-17 02:52:50.194341109Z" level=info msg="Trying to access \"li0317gcp1.mirror-registry.qe.gcp.devcluster.openshift.com:5000/ocp/release@sha256:1926eae7cacb9c00f142ec98b00628970e974284b6ddaf9a6a086cb9af7a6c31\""
Mar 17 02:52:50 ip-10-0-138-140.ec2.internal crio[1484]: time="2021-03-17 02:52:50.226788351Z" level=info msg="Trying to access \"li0317gcp1.mirror-registry.qe.gcp.devcluster.openshift.com:5000/ocp/release@sha256:1926eae7cacb9c00f142ec98b00628970e974284b6ddaf9a6a086cb9af7a6c31\""
...
日志中可能两次显示镜像拉取源,如前面的示例所示。
如果您的 `ImageContentSourcePolicy` 对象列出了多个镜像,OpenShift Container Platform 将尝试按照配置中列出的顺序拉取镜像,例如
Trying to access \"li0317gcp1.mirror-registry.qe.gcp.devcluster.openshift.com:5000/ocp/release@sha256:1926eae7cacb9c00f142ec98b00628970e974284b6ddaf9a6a086cb9af7a6c31\" Trying to access \"li0317gcp2.mirror-registry.qe.gcp.devcluster.openshift.com:5000/ocp/release@sha256:1926eae7cacb9c00f142ec98b00628970e974284b6ddaf9a6a086cb9af7a6c31\"
您可以运行 `oc get clusterversion` 命令查看集群版本和状态。如果状态显示安装仍在进行中,您可以查看 Operator 的状态以获取更多信息。
您还可以列出当前更新通道并查看可用的集群更新。
您可以作为具有 `cluster-admin` 角色的用户访问集群。
您已安装 OpenShift CLI (`oc`)。
获取集群版本和整体状态
$ oc get clusterversion
NAME VERSION AVAILABLE PROGRESSING SINCE STATUS
version 4.6.4 True False 6m25s Cluster version is 4.6.4
示例输出表明集群已成功安装。
如果集群状态指示安装仍在进行中,您可以通过检查 Operator 的状态来获取更详细的进度信息
$ oc get clusteroperators.config.openshift.io
查看集群规范、更新可用性和更新历史记录的详细摘要
$ oc describe clusterversion
列出当前更新通道
$ oc get clusterversion -o jsonpath='{.items[0].spec}{"\n"}'
{"channel":"stable-4.6","clusterID":"245539c1-72a3-41aa-9cec-72ed8cf25c5c"}
查看可用的集群更新
$ oc adm upgrade
Cluster version is 4.6.4
Updates:
VERSION IMAGE
4.6.6 quay.io/openshift-release-dev/ocp-release@sha256:c7e8f18e8116356701bd23ae3a23fb9892dd5ea66c8300662ef30563d7104f39
有关在安装仍在进行中时查询 Operator 状态的更多信息,请参阅 安装后查询 Operator 状态。
有关调查 Operator 问题的更多信息,请参阅 排除 Operator 问题。
有关使用 Web 控制台更新集群的更多信息,请参阅 使用 Web 控制台更新集群。
有关更新发布通道概述,请参阅 了解更新通道和版本。
您可以通过检查云凭据运算符 (CCO) 配置和集群中的其他值来验证集群是否为各个组件使用短期安全凭据。
您使用云凭据操作符实用程序 (ccoctl) 部署了 OpenShift Container Platform 集群以实现短期凭据。
您已安装 OpenShift CLI (oc)。
您已以具有 cluster-admin 权限的用户身份登录。
运行以下命令,验证 CCO 是否配置为以手动模式运行
$ oc get cloudcredentials cluster \
-o=jsonpath={.spec.credentialsMode}
以下输出确认 CCO 正在手动模式下运行
Manual
运行以下命令,验证集群中是否没有 root 凭据
$ oc get secrets \
-n kube-system <secret_name>
其中 <secret_name> 是您云提供商的根密钥名称。
| 平台 | 密钥名称 |
|---|---|
Amazon Web Services (AWS) |
|
Microsoft Azure |
|
Google Cloud Platform (GCP) |
|
错误确认集群中不存在根密钥。
Error from server (NotFound): secrets "aws-creds" not found
运行以下命令,验证组件是否正在为各个组件使用短期安全凭据
$ oc get authentication cluster \
-o jsonpath \
--template='{ .spec.serviceAccountIssuer }'
此命令显示集群 Authentication 对象中 .spec.serviceAccountIssuer 参数的值。与您的云提供商关联的 URL 输出表示集群正在使用手动模式以及从集群外部创建和管理的短期凭据。
Azure 集群:运行以下命令,验证组件是否正在承担密钥清单中指定的 Azure 客户端 ID
$ oc get secrets \
-n openshift-image-registry installer-cloud-credentials \
-o jsonpath='{.data}'
包含 azure_client_id 和 azure_federated_token_file 字段的输出确认组件正在承担 Azure 客户端 ID。
Azure 集群:运行以下命令,验证 pod 身份 webhook 是否正在运行
$ oc get pods \
-n openshift-cloud-credential-operator
NAME READY STATUS RESTARTS AGE
cloud-credential-operator-59cf744f78-r8pbq 2/2 Running 2 71m
pod-identity-webhook-548f977b4c-859lz 1/1 Running 1 70m
您可以在安装后验证集群节点的状态。
您可以作为具有 `cluster-admin` 角色的用户访问集群。
您已安装 OpenShift CLI (`oc`)。
列出集群节点的状态。验证输出是否列出了所有预期的控制平面和计算节点,以及每个节点是否都具有 就绪 状态
$ oc get nodes
NAME STATUS ROLES AGE VERSION
compute-1.example.com Ready worker 33m v1.30.3
control-plane-1.example.com Ready master 41m v1.30.3
control-plane-2.example.com Ready master 45m v1.30.3
compute-2.example.com Ready worker 38m v1.30.3
compute-3.example.com Ready worker 33m v1.30.3
control-plane-3.example.com Ready master 41m v1.30.3
查看每个集群节点的 CPU 和内存资源可用性
$ oc adm top nodes
NAME CPU(cores) CPU% MEMORY(bytes) MEMORY%
compute-1.example.com 128m 8% 1132Mi 16%
control-plane-1.example.com 801m 22% 3471Mi 23%
control-plane-2.example.com 1718m 49% 6085Mi 40%
compute-2.example.com 935m 62% 5178Mi 75%
compute-3.example.com 111m 7% 1131Mi 16%
control-plane-3.example.com 942m 26% 4100Mi 27%
有关查看节点运行状况和调查节点问题的更多详细信息,请参见 验证节点运行状况。
您可以在 OpenShift Container Platform Web 控制台的**概述**页面中查看以下信息
集群的总体状态
控制平面、集群操作符和存储的状态
CPU、内存、文件系统、网络传输和 Pod 可用性
集群的 API 地址、集群 ID 和提供商名称
集群版本信息
集群更新状态,包括当前更新通道和可用更新的详细信息
集群清单,详细说明节点、Pod、存储类和持久卷声明 (PVC) 信息
正在进行的集群活动和最近事件的列表
您可以作为具有 `cluster-admin` 角色的用户访问集群。
在**管理员**视角中,导航到**主页** → **概述**。
从 OpenShift Container Platform Web 控制台,您可以在 OpenShift Cluster Manager 上查看有关集群状态的详细信息。
您已登录到 OpenShift Cluster Manager。
您可以作为具有 `cluster-admin` 角色的用户访问集群。
在 OpenShift Cluster Manager 中转到**集群列表**列表,并找到您的 OpenShift Container Platform 集群。
单击集群的**概述**选项卡。
查看有关集群的以下信息
vCPU 和内存可用性和资源使用情况
集群 ID、状态、类型、区域和提供商名称
按节点类型划分的节点计数
集群版本详细信息、集群创建日期和集群所有者名称
集群的生命周期支持状态
订阅信息,包括服务级别协议 (SLA) 状态、订阅单元类型、集群的生产状态、订阅义务和服务级别
|
要查看集群的历史记录,请单击**集群历史记录**选项卡。 |
导航到**监控**页面以查看以下信息
已检测到的任何问题的列表
正在触发的警报列表
集群操作符状态和版本
集群的资源使用情况
可选:您可以通过导航到**概述**菜单来查看 Red Hat Insights 收集的有关集群的信息。在此菜单中,您可以查看以下信息
您的集群可能面临的潜在问题,按风险级别分类
按类别划分的运行状况检查状态
有关查看集群潜在问题的更多信息,请参见 使用 Insights 识别集群问题。
OpenShift Container Platform 提供了一套全面的监控仪表板,可帮助您了解集群组件的状态。
在**管理员**视角中,您可以访问核心 OpenShift Container Platform 组件的仪表板,包括
etcd
Kubernetes 计算资源
Kubernetes 网络资源
Prometheus
与集群和节点性能相关的仪表板
您可以作为具有 `cluster-admin` 角色的用户访问集群。
在 OpenShift Container Platform Web 控制台的**管理员**视角中,导航到**观察** → **仪表板**。
在**仪表板**列表中选择一个仪表板。某些仪表板(例如**etcd**仪表板)在选择后会生成其他子菜单。
可选:在**时间范围**列表中为图表选择一个时间范围。
选择预定义的时间段。
在**时间范围**列表中选择**自定义时间范围**以设置自定义时间范围。
输入或选择**开始**和**结束**日期和时间。
单击**保存**以保存自定义时间范围。
可选:选择**刷新间隔**。
将鼠标悬停在仪表板中的每个图表上,以显示有关特定项目的详细信息。
有关 OpenShift Container Platform 监控堆栈的更多信息,请参见 监控概述。
当 OpenShift Container Platform 集群中的一组定义条件为真时,警报会提供通知。您可以使用 OpenShift Container Platform Web 控制台中的警报 UI 查看集群中正在触发的警报。
您可以作为具有 `cluster-admin` 角色的用户访问集群。
在**管理员**视角中,导航到**观察** → **警报** → **警报**页面。
查看正在触发的警报,包括它们的**严重性**、**状态**和**来源**。
选择一个警报以在**警报详细信息**页面中查看更详细的信息。
有关 OpenShift Container Platform 中警报的更多详细信息,请参见 管理警报。
安装集群时遇到问题,请参阅安装故障排除。
安装OpenShift Container Platform后,您可以进一步扩展和定制您的集群。