ESXI中安装A5000显卡的一些注意事项

将A5000显卡直通到ubuntu20.4虚拟机后,虚拟机直接打开电源失败,需要在虚拟机配置的高级选项中添加如下配置值

pciPassthru.use64bitMMIO=TRUE
pciPassthru.64bitMMIOSizeGB=64

添加这个选项后,虚拟机可以开机启动,但是安装nvidia驱动后,通过nvidia-smi找不到A5000显卡,
一通折腾后,最后发现虚拟机需要以EFI模式启动,否则A5000卡不可用
将虚拟机的引导模式有MBR转换为GPT,然后使用boot-repair修复引导,以EFI模式重新启动虚拟机后再次安装显卡驱动,
使用nvidia-smi命令果然正常识别显示出来A5000卡
装显卡驱动几个点:

#禁用nouveau
sudo vi /etc/modprobe.d/blacklist.conf
#末尾添加
blacklist nouveau
options nouveau modeset=0
#保存后执行
sudo update-initramfs -u

#卸载之前的驱动
sudo apt-get remove --purge nvidia*

#执行nvidia的安装程序
sudo ./cuda_12.5.0_555.42.02_linux.run

安装驱动时注意不要安装任何 OpenGL文件,否则启动桌面时登录后会闪退到登录界面

一个没有注意的问题,虚拟机中运行的直通显卡,功耗开在 P0 级别,高功耗,显卡空挂时负载也有7-80w,温度50多度,原先是运行在 P8 级别,空挂功耗在7-8w,温度在30度左右
在虚拟机中要做如下操作

# 首先设置永久模式
sudo nvidia-smi -pm 1

#在进入桌面情况下执行如下命令,设置显卡功耗为自适应模式
sudo nvidia-settings -a "[gpu:0]/GPUPowerMizerMode=1"

# 有多个显卡时,逐个设置,gpu后面的编号往上加,比如
sudo nvidia-settings -a "[gpu:1]/GPUPowerMizerMode=1"

#注意,一定要有一个桌面在登录状态,要不然后面显卡设置命令会报错

处理后,显卡运行在了P8模式,但是功耗比之前的大,在14-18w之间,比最先的7-8w高了约10w,温度高了约2度,不知道怎么解决
ESXi 直通环境下,关闭持久模式会导致 P0 卡死,应开启持久模式并配合其他设置

Popularity: 10% [?]

Random Posts

Comments

Comments are closed.