提问者:小点点

在顶点AI上使用特斯拉A100 GPU和Kubeflow管道


我使用以下几行代码在Kubeflow Pipeline(KFP)上指定所需的机器类型和加速器/GPU,我将通过顶点AI/管道以无服务器方式运行。

op().
set_cpu_limit(8).
set_memory_limit(50G).
add_node_selector_constraint('cloud.google.com/gke-accelerator', 'nvidia-tesla-k80').
set_gpu_limit(1)

它也适用于其他GPU,即Pascal、特斯拉、Volta卡。

然而,我不能用最新的加速器类型,即特斯拉A100做同样的事情,因为它需要一种特殊的机器类型,至少是a2-hygpu-1g

当我在Vertex上运行它时,如何确保这个特定组件将在a2-hygpu-1g之上运行?

如果我简单地遵循旧GPU的方法:

op().
set_cpu_limit(12). # max for A2-highgpu-1g
set_memory_limit(85G). # max for A2-highgpu-1g
add_node_selector_constraint('cloud.google.com/gke-accelerator', 'nvidia-tesla-a100').
set_gpu_limit(1)

它在运行/部署时引发错误,因为正在生成的机器类型是通用类型,即N1-Highmem-*

当我没有指定cpu和内存限制时也发生了同样的事情,希望它会根据加速器约束自动选择正确的机器类型。

    op().
    add_node_selector_constraint('cloud.google.com/gke-accelerator', 'nvidia-tesla-a100').
    set_gpu_limit(1)

错误:"NVIDIA_TESLA_A100"不支持机器类型"n1-hymem-2",


共1个答案

匿名用户

目前,GCP不支持普通KF组件的A2机器类型。目前一个潜在的解决方法是使用GCP自定义作业组件,您可以显式指定机器类型。

相关问题