提问者:小点点

关机脚本不能在带有GPU和NVIDIA驱动程序的GCE实例上运行


我正在尝试使用NVIDIAK80 GPU(来宾加速器)在GCE实例上运行关闭脚本。这些实例(n1-标准-1)正在us-east-1d区域运行Ubuntu 16.04的自定义映像(安装了NVIDIA驱动程序,如本教程所示:https://cloud.google.com/compute/docs/gpus/add-gpus#install-driver-manual)。

问题是当实例安装了NVIDIA驱动程序时,关机脚本不会运行,但如果未安装驱动程序(即使连接了GPU),关机脚本也会持续执行。无论实例是否可抢占,都会发生这种情况。

在标准的Ubuntu 16.04OS映像上运行关机脚本可以工作,但是一旦安装了驱动程序,并且实例重新启动,关闭它就不再触发脚本了。有趣的是, /var/log/syslog不包含关机脚本的消息。我希望出现错误或没有找到关机脚本的消息,但这些都没有出现。

任何关于这是否可重复或只是我的一些错误的帮助或信息将不胜感激。


共1个答案

匿名用户

我刚刚用NVIDIAK80 GPU在我的项目中测试了它,在有和没有的情况下,我都能够运行关闭脚本。你真的做了一个移除GPU的测试,还是你使用了两个不同的实例?

您可以尝试将脚本添加到实例的自定义元数据中,以检查连接到存储桶/权限或脚本本身的方式是否存在问题(但老实说,我不知道这些如何成为问题的原因)。

因此,转到任何实例的编辑页面,添加自定义元数据并重试,让我知道结果。

key = shutdown-script
value = echo hello >> marco.py

请记住,从官方留档关闭脚本输出写入以下日志文件:

  • CentOS和RHEL: /var/log/messages
  • Debian: /var/log/daemon.log
  • Ubuntu 14.04、16.04和16.10: /var/log/syslog
  • SLES 11和12: /var/log/messages

我创建了公共问题,您可以“星标”以关注其更新。您需要使用任何gmail帐户登录才能检查它。

https://issuetracker.google.com/issues/72981924