libnvidia-vgx.so を含むエラーが出てvGPU仮想マシンが起動失敗したら
vGPUを付与した仮想マシンを起動しようとしたら、
次のアラートが出力されて起動に失敗しまして、
ハマりかけたので記録しておきます。
=日本語======================
vGPU「nvidia_<vGPUプロファイル>」のプラグイン「libnvidia-vgx.so」を初期化できませんでした。 仮想マシンの起動に失敗しました。 モジュール「DevicePowerOn」のパワーオンに失敗しました。
=======================
=英語も======================
Could not initialize plugin '/usr/lib64/vmware/plugin/libnvidia-vgx.so' for vGPU "profile_name"
=======================
私のケースでは、「SR-IOVが無効になっていた」ことが原因でした。初歩的だからこそ見落としがち…ということにさせてください。
Web上の先駆者たちが示す「ECCモードの無効化」だったり、vSphere&vGPUのバージョンを細かく刻んで試したりして疲弊した挙句、念のためBIOS設定を確認したところ、なんと有効だと思っていたSR-IOV設定が無効になっていたという…。
いつも使っているメーカーのサーバーではなく、ちょっと違うやつを使ったりする場合は特にご注意ください。BIOSの初期設定には差異があるもんです。
vSphere 7.0 u2
vCenter 7.0 u2
vGPU 14.1