使用GPU容器实例
本文主要为您介绍如何使用 GPU 容器实例,这里以使用 Tensorflow 进行图片识别为例进行演示。该功能适用于Serverless kubernetes 集群和在
Kubernetes 集群创建的虚拟节点。
背景信息
容器服务 ACK Serverless(Serverless Kubernetes)基于 ECI(弹性容器实例)正式推出 GPU 容器实例支持,让用户以 serverless
的方式快速运行 AI 计算任务,极大降低 AI 平台运维的负担,显著提升整体计算效率。
AI 计算离不开 GPU 已经是行业共识,然而从零开始搭建 GPU 集群环境是件相对复杂的任务,包括 GPU 规格购买、机器准备、驱动安装、容器环境安装等。GPU
资源的 serverless 交付方式,充分的展现了 serverless 的核心优势,其向用户提供标准化而且“开箱即用”的资源供给能力,用户无需购买机器也无需登录到节点安装
GPU 驱动,极大降低了 AI 平台的部署复杂度,让客户关注在 AI 模型和应用本身而非基础设施的搭建和维护,让使用 GPU/CPU 资源就如同打开水龙头一样简单方便,同时按需计费的方式让客户按照计算任务进行消费,
避免包年包月带来的高成本和资源浪费。
在容器服务 ACK Serverless 中创建挂载 GPU 的 Pod,通过 Annotation 指定所需 GPU 的类型,同时在 resource.limits
中指定 GPU 的个数即可(也可指定 instance-type)。每个 pod 独占 GPU,GPU 实例的收费与 ECS GPU 类型收费一致,不产生额外费用。目前阿里云ECI 提供的 GPU 规格及类型请参见ECI GPU 使用示例
前提条件
您已经创建一个 Serverless Kubernetes集群或已在 Kubernetes 集群创建一个虚拟节点。

apiVersion: v1
kind: Pod
metadata:
name: tensorflow
annotations:
k8s.aliyun.com/eci-gpu-type : "P4"
spec:
containers:
- image: registry-vpc.cn-hangzhou.aliyuncs.com/ack-serverless/tensorflow
name: tensorflow
command:
- "sh"
- "-c"
- "python models/tutorials/image/imagenet/classify_image.py"
resources:
limits:
nvidia.com/gpu: "1"
restartPolicy: OnFailure
nodeName: virtual-kubelet
发布者:佚, 佚名,转转请注明出处:https://www.cms2.cn/aliyun/csk/5137.html