×

查看安装日志

您可以查看 OpenShift Container Platform 安装日志中安装的摘要。如果安装成功,则日志中包含访问集群所需的信息。

先决条件
  • 您可以访问安装主机。

步骤
  • 查看安装主机安装目录中的 `.openshift_install.log` 日志文件

    $ cat <install_dir>/.openshift_install.log
    示例输出

    如果安装成功,则集群凭据包含在日志的末尾,如下例所示

    ...
    time="2020-12-03T09:50:47Z" level=info msg="Install complete!"
    time="2020-12-03T09:50:47Z" level=info msg="To access the cluster as the system:admin user when using 'oc', run 'export KUBECONFIG=/home/myuser/install_dir/auth/kubeconfig'"
    time="2020-12-03T09:50:47Z" level=info msg="Access the OpenShift web-console here: https://console-openshift-console.apps.mycluster.example.com"
    time="2020-12-03T09:50:47Z" level=info msg="Login to the console with user: \"kubeadmin\", and password: \"password\""
    time="2020-12-03T09:50:47Z" level=debug msg="Time elapsed per stage:"
    time="2020-12-03T09:50:47Z" level=debug msg="    Infrastructure: 6m45s"
    time="2020-12-03T09:50:47Z" level=debug msg="Bootstrap Complete: 11m30s"
    time="2020-12-03T09:50:47Z" level=debug msg=" Bootstrap Destroy: 1m5s"
    time="2020-12-03T09:50:47Z" level=debug msg=" Cluster Operators: 17m31s"
    time="2020-12-03T09:50:47Z" level=info msg="Time elapsed: 37m26s"

查看镜像拉取源

对于具有不受限制的网络连接的集群,您可以使用节点上的命令(例如 `crictl images`)查看已拉取镜像的源。

但是,对于断开连接的安装,要查看已拉取镜像的源,必须查看 CRI-O 日志以找到 `Trying to access` 日志条目,如下面的步骤所示。其他查看镜像拉取源的方法(例如 `crictl images` 命令)会显示非镜像镜像名称,即使镜像是从镜像位置拉取的。

先决条件
  • 您可以作为具有 `cluster-admin` 角色的用户访问集群。

步骤
  • 查看主节点或工作节点的 CRI-O 日志

    $  oc adm node-logs <node_name> -u crio
    示例输出

    `Trying to access` 日志条目指示镜像从何处拉取。

    ...
    Mar 17 02:52:50 ip-10-0-138-140.ec2.internal crio[1366]: time="2021-08-05 10:33:21.594930907Z" level=info msg="Pulling image: quay.io/openshift-release-dev/ocp-release:4.10.0-ppc64le" id=abcd713b-d0e1-4844-ac1c-474c5b60c07c name=/runtime.v1alpha2.ImageService/PullImage
    Mar 17 02:52:50 ip-10-0-138-140.ec2.internal crio[1484]: time="2021-03-17 02:52:50.194341109Z" level=info msg="Trying to access \"li0317gcp1.mirror-registry.qe.gcp.devcluster.openshift.com:5000/ocp/release@sha256:1926eae7cacb9c00f142ec98b00628970e974284b6ddaf9a6a086cb9af7a6c31\""
    Mar 17 02:52:50 ip-10-0-138-140.ec2.internal crio[1484]: time="2021-03-17 02:52:50.226788351Z" level=info msg="Trying to access \"li0317gcp1.mirror-registry.qe.gcp.devcluster.openshift.com:5000/ocp/release@sha256:1926eae7cacb9c00f142ec98b00628970e974284b6ddaf9a6a086cb9af7a6c31\""
    ...

    日志中可能两次显示镜像拉取源,如前面的示例所示。

    如果您的 `ImageContentSourcePolicy` 对象列出了多个镜像,OpenShift Container Platform 将尝试按照配置中列出的顺序拉取镜像,例如

    Trying to access \"li0317gcp1.mirror-registry.qe.gcp.devcluster.openshift.com:5000/ocp/release@sha256:1926eae7cacb9c00f142ec98b00628970e974284b6ddaf9a6a086cb9af7a6c31\"
    Trying to access \"li0317gcp2.mirror-registry.qe.gcp.devcluster.openshift.com:5000/ocp/release@sha256:1926eae7cacb9c00f142ec98b00628970e974284b6ddaf9a6a086cb9af7a6c31\"

获取集群版本、状态和更新详细信息

您可以运行 `oc get clusterversion` 命令查看集群版本和状态。如果状态显示安装仍在进行中,您可以查看 Operator 的状态以获取更多信息。

您还可以列出当前更新通道并查看可用的集群更新。

先决条件
  • 您可以作为具有 `cluster-admin` 角色的用户访问集群。

  • 您已安装 OpenShift CLI (`oc`)。

步骤
  1. 获取集群版本和整体状态

    $ oc get clusterversion
    示例输出
    NAME      VERSION   AVAILABLE   PROGRESSING   SINCE   STATUS
    version   4.6.4     True        False         6m25s   Cluster version is 4.6.4

    示例输出表明集群已成功安装。

  2. 如果集群状态指示安装仍在进行中,您可以通过检查 Operator 的状态来获取更详细的进度信息

    $ oc get clusteroperators.config.openshift.io
  3. 查看集群规范、更新可用性和更新历史记录的详细摘要

    $ oc describe clusterversion
  4. 列出当前更新通道

    $ oc get clusterversion -o jsonpath='{.items[0].spec}{"\n"}'
    示例输出
    {"channel":"stable-4.6","clusterID":"245539c1-72a3-41aa-9cec-72ed8cf25c5c"}
  5. 查看可用的集群更新

    $ oc adm upgrade
    示例输出
    Cluster version is 4.6.4
    
    Updates:
    
    VERSION IMAGE
    4.6.6   quay.io/openshift-release-dev/ocp-release@sha256:c7e8f18e8116356701bd23ae3a23fb9892dd5ea66c8300662ef30563d7104f39
其他资源

验证集群是否使用短期凭据

您可以通过检查云凭据运算符 (CCO) 配置和集群中的其他值来验证集群是否为各个组件使用短期安全凭据。

先决条件
  • 您使用云凭据操作符实用程序 (ccoctl) 部署了 OpenShift Container Platform 集群以实现短期凭据。

  • 您已安装 OpenShift CLI (oc)。

  • 您已以具有 cluster-admin 权限的用户身份登录。

步骤
  • 运行以下命令,验证 CCO 是否配置为以手动模式运行

    $ oc get cloudcredentials cluster \
      -o=jsonpath={.spec.credentialsMode}

    以下输出确认 CCO 正在手动模式下运行

    示例输出
    Manual
  • 运行以下命令,验证集群中是否没有 root 凭据

    $ oc get secrets \
      -n kube-system <secret_name>

    其中 <secret_name> 是您云提供商的根密钥名称。

    平台 密钥名称

    Amazon Web Services (AWS)

    aws-creds

    Microsoft Azure

    azure-credentials

    Google Cloud Platform (GCP)

    gcp-credentials

    错误确认集群中不存在根密钥。

    AWS 集群的示例输出
    Error from server (NotFound): secrets "aws-creds" not found
  • 运行以下命令,验证组件是否正在为各个组件使用短期安全凭据

    $ oc get authentication cluster \
      -o jsonpath \
      --template='{ .spec.serviceAccountIssuer }'

    此命令显示集群 Authentication 对象中 .spec.serviceAccountIssuer 参数的值。与您的云提供商关联的 URL 输出表示集群正在使用手动模式以及从集群外部创建和管理的短期凭据。

  • Azure 集群:运行以下命令,验证组件是否正在承担密钥清单中指定的 Azure 客户端 ID

    $ oc get secrets \
      -n openshift-image-registry installer-cloud-credentials \
      -o jsonpath='{.data}'

    包含 azure_client_idazure_federated_token_file 字段的输出确认组件正在承担 Azure 客户端 ID。

  • Azure 集群:运行以下命令,验证 pod 身份 webhook 是否正在运行

    $ oc get pods \
      -n openshift-cloud-credential-operator
    示例输出
    NAME                                         READY   STATUS    RESTARTS   AGE
    cloud-credential-operator-59cf744f78-r8pbq   2/2     Running   2          71m
    pod-identity-webhook-548f977b4c-859lz        1/1     Running   1          70m

使用 CLI 查询集群节点的状态

您可以在安装后验证集群节点的状态。

先决条件
  • 您可以作为具有 `cluster-admin` 角色的用户访问集群。

  • 您已安装 OpenShift CLI (`oc`)。

步骤
  1. 列出集群节点的状态。验证输出是否列出了所有预期的控制平面和计算节点,以及每个节点是否都具有 就绪 状态

    $ oc get nodes
    示例输出
    NAME                          STATUS   ROLES    AGE   VERSION
    compute-1.example.com         Ready    worker   33m   v1.30.3
    control-plane-1.example.com   Ready    master   41m   v1.30.3
    control-plane-2.example.com   Ready    master   45m   v1.30.3
    compute-2.example.com         Ready    worker   38m   v1.30.3
    compute-3.example.com         Ready    worker   33m   v1.30.3
    control-plane-3.example.com   Ready    master   41m   v1.30.3
  2. 查看每个集群节点的 CPU 和内存资源可用性

    $ oc adm top nodes
    示例输出
    NAME                          CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%
    compute-1.example.com         128m         8%     1132Mi          16%
    control-plane-1.example.com   801m         22%    3471Mi          23%
    control-plane-2.example.com   1718m        49%    6085Mi          40%
    compute-2.example.com         935m         62%    5178Mi          75%
    compute-3.example.com         111m         7%     1131Mi          16%
    control-plane-3.example.com   942m         26%    4100Mi          27%
其他资源

从 OpenShift Container Platform Web 控制台查看集群状态

您可以在 OpenShift Container Platform Web 控制台的**概述**页面中查看以下信息

  • 集群的总体状态

  • 控制平面、集群操作符和存储的状态

  • CPU、内存、文件系统、网络传输和 Pod 可用性

  • 集群的 API 地址、集群 ID 和提供商名称

  • 集群版本信息

  • 集群更新状态,包括当前更新通道和可用更新的详细信息

  • 集群清单,详细说明节点、Pod、存储类和持久卷声明 (PVC) 信息

  • 正在进行的集群活动和最近事件的列表

先决条件
  • 您可以作为具有 `cluster-admin` 角色的用户访问集群。

步骤
  • 在**管理员**视角中,导航到**主页** → **概述**。

从 Red Hat OpenShift Cluster Manager 查看集群状态

从 OpenShift Container Platform Web 控制台,您可以在 OpenShift Cluster Manager 上查看有关集群状态的详细信息。

先决条件
步骤
  1. OpenShift Cluster Manager 中转到**集群列表**列表,并找到您的 OpenShift Container Platform 集群。

  2. 单击集群的**概述**选项卡。

  3. 查看有关集群的以下信息

    • vCPU 和内存可用性和资源使用情况

    • 集群 ID、状态、类型、区域和提供商名称

    • 按节点类型划分的节点计数

    • 集群版本详细信息、集群创建日期和集群所有者名称

    • 集群的生命周期支持状态

    • 订阅信息,包括服务级别协议 (SLA) 状态、订阅单元类型、集群的生产状态、订阅义务和服务级别

      要查看集群的历史记录,请单击**集群历史记录**选项卡。

  4. 导航到**监控**页面以查看以下信息

    • 已检测到的任何问题的列表

    • 正在触发的警报列表

    • 集群操作符状态和版本

    • 集群的资源使用情况

  5. 可选:您可以通过导航到**概述**菜单来查看 Red Hat Insights 收集的有关集群的信息。在此菜单中,您可以查看以下信息

    • 您的集群可能面临的潜在问题,按风险级别分类

    • 按类别划分的运行状况检查状态

其他资源

检查集群资源可用性和利用率

OpenShift Container Platform 提供了一套全面的监控仪表板,可帮助您了解集群组件的状态。

在**管理员**视角中,您可以访问核心 OpenShift Container Platform 组件的仪表板,包括

  • etcd

  • Kubernetes 计算资源

  • Kubernetes 网络资源

  • Prometheus

  • 与集群和节点性能相关的仪表板

monitoring dashboard compute resources
图 1. 计算资源仪表板示例
先决条件
  • 您可以作为具有 `cluster-admin` 角色的用户访问集群。

步骤
  1. 在 OpenShift Container Platform Web 控制台的**管理员**视角中,导航到**观察** → **仪表板**。

  2. 在**仪表板**列表中选择一个仪表板。某些仪表板(例如**etcd**仪表板)在选择后会生成其他子菜单。

  3. 可选:在**时间范围**列表中为图表选择一个时间范围。

    • 选择预定义的时间段。

    • 在**时间范围**列表中选择**自定义时间范围**以设置自定义时间范围。

      1. 输入或选择**开始**和**结束**日期和时间。

      2. 单击**保存**以保存自定义时间范围。

  4. 可选:选择**刷新间隔**。

  5. 将鼠标悬停在仪表板中的每个图表上,以显示有关特定项目的详细信息。

其他资源
  • 有关 OpenShift Container Platform 监控堆栈的更多信息,请参见 监控概述

列出正在触发的警报

当 OpenShift Container Platform 集群中的一组定义条件为真时,警报会提供通知。您可以使用 OpenShift Container Platform Web 控制台中的警报 UI 查看集群中正在触发的警报。

先决条件
  • 您可以作为具有 `cluster-admin` 角色的用户访问集群。

步骤
  1. 在**管理员**视角中,导航到**观察** → **警报** → **警报**页面。

  2. 查看正在触发的警报,包括它们的**严重性**、**状态**和**来源**。

  3. 选择一个警报以在**警报详细信息**页面中查看更详细的信息。

其他资源
  • 有关 OpenShift Container Platform 中警报的更多详细信息,请参见 管理警报

后续步骤