仮想化かもしれない

何かをしたときの記録を許される(と思う)範囲で公開します。ぜんぶ個人の見解。不定期更新。仮想化、GPU、Ubuntuなど多めかも。

libnvidia-vgx.so を含むエラーが出てvGPU仮想マシンが起動失敗したら

vGPUを付与した仮想マシンを起動しようとしたら、
次のアラートが出力されて起動に失敗しまして、
ハマりかけたので記録しておきます。

 

=日本語======================
vGPU「nvidia_<vGPUプロファイル>」のプラグイン「libnvidia-vgx.so」を初期化できませんでした。 仮想マシンの起動に失敗しました。 モジュール「DevicePowerOn」のパワーオンに失敗しました。
=======================

 

=英語も======================
Could not initialize plugin '/usr/lib64/vmware/plugin/libnvidia-vgx.so' for vGPU "profile_name"
=======================


私のケースでは、「SR-IOVが無効になっていた」ことが原因でした。初歩的だからこそ見落としがち…ということにさせてください。

Web上の先駆者たちが示す「ECCモードの無効化」だったり、vSphere&vGPUのバージョンを細かく刻んで試したりして疲弊した挙句、念のためBIOS設定を確認したところ、なんと有効だと思っていたSR-IOV設定が無効になっていたという…。

いつも使っているメーカーのサーバーではなく、ちょっと違うやつを使ったりする場合は特にご注意ください。BIOSの初期設定には差異があるもんです。

vSphere 7.0 u2
vCenter 7.0 u2
vGPU 14.1