提问者:小点点

用于批次处理作业的多区域GKE集群


我正在使用 GKE 区域集群上的自动缩放抢占式节点批处理数据。时不时地,GPU变得稀缺。我没有切换区域来追逐 GPU(我已经这样做了),而是尝试更改为多区域配置。从我的角度来看,在一些中小型工作负载上,事情似乎运行良好。

我在UI中看到关于不平衡节点池的警告,因为节点池似乎在有可用资源的区域中扩展。此警告严重吗?不同区域中不同节点编号的后果是什么?我应该在每个区域运行单独的池吗?

我在节点之间有相当数量的通信——工作人员在不同区域对我的带宽有多大影响?GKE文件表明没有入口限制,只有出口比区域内慢,比区域间快。


共1个答案

匿名用户

根据带宽摘要表,对于入口和出口没有限制,与区域内的连接相比,部署在多区域中的节点之间的带宽连接略低。

群集自动缩放器仅在放大事件期间跨区域平衡。无论节点池中底层托管实例组的相对大小如何,群集自动缩放器都会缩小未充分利用的节点,这可能会导致节点在区域之间分布不均。

如果指定最少零个节点,则空闲节点池可以完全缩减。但是,集群中必须始终有一个节点可用才能运行系统 Pod。

有关平衡节点组的更多信息,请参阅链接。