集群管理FAQ
本文主要为您介绍集群管理常见问题。
- 集群创建失败
- 删除 Kubernetes 集群失败:ROS stack 无法删除
- 收集 Kubernetes 诊断信息
- 排查Kubernetes管控集群链路问题
集群创建失败
- 登录 ROS 管理控制台。
- 选择集群所在的地域,选择所需的集群并单击右侧的管理,单击左侧导航栏中的事件 ,将鼠标移动到失败事件上查看具体的失败报错信息。
上图中的报错信息显示由于 VPC 达到配额导致集群创建失败。
- 您可以参考以下失败异常码及解决方法进行修复。
- Resource CREATE failed: ResponseException: resources.k8s_SNat_Eip: Elastic IP address
quota exceeded Code: QuotaExceeded.Eip解决方法:
释放多余的 EIP 或者提交 VPC 工单提高 EIP 限额。
- Resource CREATE failed: ResponseException: resources.k8s_master_slb_internet: The
maximum number of SLB instances is exceeded. Code: ORDER.QUANTITY_INVALID解决方法:
释放多余的 SLB 实例或者提交 SLB 工单提高 SLB 限额。
- Resource CREATE failed: ResponseException: resources.k8s_vpc: VPC quota exceeded.
Code: QuotaExceeded.Vpc解决方法:
释放多余的 VPC 或者提交 VPC 工单提高 VPC 限额。
- Status Code: 403 Code: InvalidResourceType.NotSupported Message: This resource type
is not supported;解决方法:
ECS 没有库存或者类型不支持,请选择其他 ECS 规格重试。
- Resource CREATE failed: ResponseException: resources.k8s_master_1: The specified image
does not support cloud-init. Code: ImageNotSupportCloudInit解决方法:
使用自定义镜像创建集群,自定义镜像必须是基于最新的 CentOS 镜像。
- Resource CREATE failed: ResponseException: resources.k8s_nodes: The resource is out
of stock in the specified zone. Please try other types, or choose other regions and
zones. Code: OperationDenied.NoStock解决方法:
当前所选实例规格已售罄,请选择其他可用区或实例规格。
- Resource CREATE failed: ResponseException: resources.k8s_NAT_Gateway: A route entry
already exists, which CIDR is ‘0.0.0.0/0’ Code: RouterEntryConflict.Duplicated解决方法:
当前 VPC 路由表内已存在默认路由,请移除默认路由,或取消勾选为专有网络创建 SNAT后重试。
- Resource CREATE failed: ResponseException: resources.KubernetesWorkerRole: The number
of role is limited to 200. Code: LimitExceeded.Role解决方法:
RAM 角色数量已达到配额限制,请清理部分角色或提交 RAM 工单提高配额。
- Resource CREATE failed: ResponseException: resources.k8s_NAT_Gateway: The Account
failed to create order. Code: OrderFailed解决方法:
下单失败,请提交工单咨询。
- Resource CREATE failed: ResponseException: resources.k8s_master_1: This operation
is forbidden by Aliyun RiskControl system. Code: Forbidden.RiskControl解决方法:
您的账户出现异常,详情请联系客服
- Resource CREATE failed: ResponseException: resources.k8s_master_slb_internet: Your
account does not have enough balance. Code: PAY.INSUFFICIENT_BALANCE解决方法:
创建按量付费实例需要您账户余额大于100元,请先充值。
- Resource CREATE failed: ResponseException: resources.k8s_nodes: Your account does
not have enough balance. Code: InvalidAccountStatus.NotEnoughBalance解决方法:
创建按量付费实例需要您账户余额大于100元,请先充值。
- Resource CREATE failed: WaitConditionFailure: resources.k8s_node_cloudinit_wait_cond:
See output value for more details.解决方法:
配置集群出错,请稍后重试或提交工单咨询。
- Resource CREATE failed: WaitConditionTimeout: resources.k8s_master1_cloudinit_wait_cond:
0 of 2 received:解决方法:
配置集群出错,请稍后重试或提交工单咨询。
- Resource CREATE failed: ResponseException: resources.k8s_master_1: The request processing
has failed due to some unknown error. Code: UnknownError解决方法:
未知错误,请稍后重试或提交工单咨询。
- Resource CREATE failed: ResponseException: resources.k8s_nodes: The request processing
has failed due to some unknown error. Code: UnknownError解决方法:
未知错误,请稍后重试或提交工单咨询。
- Resource CREATE failed: ResponseException: resources.k8s_SNat_Eip: Elastic IP address
删除 Kubernetes 集群失败:ROS stack 无法删除
删除 Kubernetes 资源时无法处理该 VPC,最终导致删除失败。
- 集群删除失败时(集群的状态显示删除失败),跳转到 ROS 管理控制台。
- 选择集群所在的地域,找到集群对应的资源栈
k8s-for-cs-{cluster-id}
,可以看到其状态为删除失败。 - 单击资源栈的名称进入资源栈详情页面,单击左侧导航栏中的资源。
您可以看到哪些资源删除失败了。本示例中负载均衡下的 VSwitch 删除失败。
- 进入删除失败的资源所在产品的控制台,并找到该资源。
本示例中,登录 VPC 管理控制台,找到集群所在的 VPC,并在该 VPC 下找到删除失败的 VSwitch。
- 单击 VSwitch 右侧的删除 尝试手动删除。
本示例中,由于 VSwitch 下还有资源未释放,所以删除失败。
手动释放该 VSwitch 下的资源,然后再次尝试删除该 VSwitch。
- 使用类似的方法手动删除 Kubernetes 集群下所有删除失败的资源,然后再次尝试删除 Kubernetes 集群。
收集 Kubernetes 诊断信息
- 当集群异常时,需要在master节点完成收集。
- 当worker节点异常时,则需要在master节点和异常的worker节点上完成收集。
完成以下步骤在master/worker节点收集诊断信息。
- 在 master/worker节点下载诊断脚本,并增加运行权限。
curl -o /usr/local/bin/diagnose_k8s.sh http://aliacs-k8s-cn-hangzhou.oss-cn-hangzhou.aliyuncs.com/public/diagnose/diagnose_k8s.sh chmod u+x /usr/local/bin/diagnose_k8s.sh
- 执行诊断脚本。
diagnose_k8s.sh ...... + echo 'please get diagnose_1514939155.tar.gz for diagnostics' ##每次执行诊断脚本,产生的日志文件的名称不同 please get diagnose_1514939155.tar.gz for diagnostics + echo '请上传 diagnose_1514939155.tar.gz' 请上传 diagnose_1514939155.tar.gz
- 列出并上传产生的日志文件。
cd /usr/local/bin ls -ltr|grep diagnose_1514939155.tar.gz ##注意替换为生成的日志文件名
排查Kubernetes管控集群链路问题

- SLB被误删
- 内网SLB配置了ACL
- 专有版Kubernetes集群Master节点被误删
- 专有版Kubernetes集群Master节点的安全组配置了白名单
- 通过 kubectl 连接 Kubernetes 集群。
- 在集群内节点上,执行
kubectl get ns
,查看返回结果。如下图所示表示返回结果正常。- 返回结果显示正常,执行下一步。
- 返回结果异常或为空,则为集群内部问题。请执行步骤4。
- 在 Kubernetes 菜单下, 单击左侧导航栏中集群 > 命名空间,查看命名空间是否显示正常。
如下图所示表示命名空间显示异常。
- 正常,说明管控链路正常,操作结束。
- 异常,请执行步骤5。
- 在控制台单击概览,查看概览页面。
如下图所示表示无法查看节点状态。
- 可以看到节点状态,组件状态,warning事件,请根据提示信息进行修复。操作结束。
- 否则,在节点上用kubectl命令查询节点/组件状态。
如果以上操作仍然不能解决,请继续执行下一步操作。 - 登录SLB控制台,单击左侧导航栏中实例 > 实例管理,找到并单击目标实例,查看监听端口、公网/内网SLB及访问控制设置等信息是否正确。
您可以分别通过如下操作进行查看:
- 单击监听页签,查看监听端口是否为6443。
如下图所示表示监听端口正确。
- 单击默认服务器组页签,查看公网/内网SLB是否正确。
如下图所示表示公网/内网SLB显示正确。
- 单击监听页签,在操作列选择更多 > 访问控制设置,查看访问控制设置是否正确。
如下图所示,访问控制未启用,或者启用访问控制,且100.104.0.0/16网段已加入白名单,均设置正确。
如果以上配置不正确,请参考示例截图进行配置。
- 单击监听页签,查看监听端口是否为6443。
发布者:佚, 佚名,转转请注明出处:https://www.cms2.cn/aliyun/csk/5533.html

相关推荐
-
查看集群实例
根据集群 ID,查看集群的详细信息。具体的 API 描述,参见查询集群实例。 API请求响应 请求格式 aliyun cs GET /clusters/<cluster_id> 响应结果 { “agent_version”: “string”, “cluster_id…
2019年12月13日 -
概念比对
本文主要介绍容器服务Swarm集群与Kubernetes集群主要概念的比对。 应用 容器服务Swarm集群 容器服务Swarm中,应用类似于项目,一个应用下面可以有多个服务。服务是具体提供应用功能的实例。服务可以水平扩展。 容器服务Kubernetes集群 容器服务Kuberne…
2019年12月13日 -
通过负载均衡(Server Load Balancer)访问服务
您可以使用阿里云负载均衡来访问服务。 背景信息 如果您的集群的cloud-controller-manager版本大于等于v1.9.3,对于指定已有SLB,系统默认不再为该SLB处理监听,用户可以通过设置service.beta.kubernetes.io/alibaba-clo…
-
部署 Kubernetes 资源文件
背景信息 针对前面kompose 转换成功并预处理后的Kubernetes 资源文件,我们可以通过kubectl工具部署到Kubernetes 集群中;其中,集群票据在配置kubectl环境 已配置完成。 操作步骤 可通过如下命令,批量部署当前目录下的所有资源文件。 kubect…
2019年12月13日 -
迁移应用配置概述
本文将介绍在运维人员完成集群配置迁移后,开发人员如何将Swarm集群里面的应用配置迁移到Kubernetes 集群。其主要包括准备应用迁移环境、预处理和转换应用的Swarm编排文件;然后部署转换得到的Kubernetes 资源文件,针对其中不支持自动转换的应用配置做手动迁移,最后…
2019年12月13日 -
删除路由
前提条件 您已经成功创建一个 Kubernetes 集群,参见创建Kubernetes集群,并且集群中 Ingress controller 正常运行。 您已经成功创建一个路由,参见通过界面创建路由(Ingress)。 操作步骤 登录容器服务管理控制台。 在 Kubernetes…
2019年11月11日