提问者:小点点

自动缩放VertexAI管道组件


我正在探索VertexAI管道,并了解它是一种托管的替代方案,例如AI平台管道(您必须部署GKE集群才能运行Kubeflow管道)。我不清楚的是VertexAI是否会根据负载自动缩放集群。在对类似问题的回答中,提到了对于使用GCP资源(如Dataflow等)的管道步骤,自动缩放将自动完成。在google文档中提到,对于组件,可以设置资源,如CPU_LIMITGPU_LIMIT等。我的问题是,是否可以为任何类型的组件设置这些限制,即Google Cloud管道组件或自定义组件,无论是基于函数的组件还是打包为容器映像的组件Python?其次,这些限制是否意味着组件资源将自动缩放,直到它们达到这些限制?如果甚至没有指定这些选项会发生什么,那么资源是如何分配的,它们会自动缩放,因为VertexAI认为合适吗?

相关文档和资源的链接将非常有用。


共1个答案

匿名用户

为了回答你的问题,

1.可以为任何类型的组件设置这些限制吗?

是的。因为,这些限制适用于所有Kubeflow组件,并不特定于任何特定类型的组件。这些组件可以实现为使用一定数量的资源执行任务。

2.这些限制是否意味着组件资源将自动缩放直到达到限制?

不,顶点AI不执行自动缩放。根据设置的限制,顶点AI选择一个合适的VM来执行任务。作为顶点AI分布式训练的一部分,谷歌云管道组件(如“CustomContainerTrainingJobRunOp”和“CustomPythonPackageTrainingJobRunOp”)支持拥有一个工作人员池。否则,每一步只使用1台机器。

3.如果未指定这些限制会发生什么?Vertex是否AI按其认为合适的方式缩放资源?

如果未指定限制,则将“e2-标准-4”VM作为默认选项用于任务执行。

编辑:我已经用最新版本的留档更新了链接。

相关问题