本处仅记录产生过问题、容易踩坑的部分:

Ubuntu 系统安装:

参考文章:

https://hs.cnies.org/archives/dual-boot-ubuntu2404-win11

https://zhuanlan.zhihu.com/p/644425528

https://blog.csdn.net/2401_84064328/article/details/137232169

首先是分区克隆,逐文件克隆会导致分区功能失效,尤其是恢复分区,慎重对待分区克隆、复制

尽可能采用逐扇区克隆的方式

然后是对安装系统前的一些注意事项:

BIOS(Secure Boot、UEFI、Fast Boot、SATA Mode AHCI、引导设备顺序)、Bitlocker/设备加密、磁盘分区格式、关闭休眠和快速启动、禁止 Windows 更新

引导设备顺序的话,稍微有点不一样,分多个栏来确定顺序而不是单个栏确定的

其中设备加密在某些设备上不一定存在,没有的话就不用管,参考文章:

https://iknow.lenovo.com.cn/detail/424764

安装系统过程中大部分时间是没问题的,直到分区部分,可能会出现找不到分配 EFI 分区的情况

这个问题本人直接采取跳过的思路,用自动构造的方式分配空间,而不是手动分配

装好以后,需要进入 BIOS 调整启动顺序,需要去 NVME 小项里面调整启动顺序,毕竟是共存的

至于记录:

估摸着是和 Windows 的引导分区放一块去了,如果重装系统可能会带来点麻烦,其他也没特别的

禁止 Windows 更新是比较重要的操作,不过好在原先的系统已经禁用

后续就是做一些软件层面的适配工作:中文、输入法、清理程序、Timeshift 备份、Tailscale、SSH

各自也有一些坑,这里记录下:

Ubuntu 不同版本里面中文配置的位置不太一样,至少 22.04 里面并不能按照大部分教程找到配置

https://blog.csdn.net/qq_42007712/article/details/82832725

其中文字包下载后需要将其移动到前四个里面,或者干脆移动到第一个,然后全部配中文

这里是采用移动次序的方案而不是常规方案

输入法的话,常规就是下载直到最后一步下载完拼音输入法

后面随着系统版本不同又分为不同的方案,22.04 这里,输入法的源添加是在键盘那边,不在语言

https://blog.csdn.net/zxyynl/article/details/134097685

清理程序倒是没什么特殊的,无非这个程序是无非靠命令行运行的,必须要在图形界面运行

然后再说 Timeshift,U 盘由于本身不是 Linux 格式,一开始无法挂载,需要稍微改为 Linux 格式

剩下就是选中这个 U 盘,然后在里面创建镜像就行,后面打算用新的 U 盘专门存快照用

至于 Tailscale,Linux 运行是比较顺利的,但是 Windows 就出现比较多的麻烦

这个麻烦的根源依旧是在 VMWare 先前卸载不够完全,导致网卡上出错,从而导致 Failed to connect to Tailscale service

后续下载注册表清理软件后就能够正常运行了,VM 的网卡也重新恢复正常(目前是卸载重装过的)

连接上面没有什么坑,无非 Windows 作为终端连接还没成功(虽然也没这个需求)

需要注意的就是要用 ch@ 的方式连接,否则会报权限不够,然后每隔六个月估计要重新配一遍

因为 Tailscale 应该是六个月过期一次

至于连接的安全性之类,我个人建议是再多研究下 Tailscale 的策略,多加配置保证连接安全性

然后记得要配置开机自启动,基本也就这样一些

V100 适配 Ubuntu 系统:

参考文章:

https://blog.csdn.net/weixin_46674639/article/details/126429113

https://blog.csdn.net/adreammaker/article/details/134622792

https://www.bilibili.com/opus/1115755954300780550?plat_id=5&share_from=article&share_medium=android&share_plat=android&share_session_id=de31deb6-5408-43c6-a680-18b5dc10a0de&share_source=COPY&share_tag=s_i&spmid=dt.opus-detail.0.0&timestamp=1758887981&unique_k=S10k4eR

https://blog.csdn.net/linuxprobe18/article/details/123868432

总体上注意事项就这样一些:

开启 4G Above、Re-size BAR(本主板自动伴随 4G Above 开启)、关闭 CSM、设置集显做显示用

直接说调整的 BIOS 内容即可,没太多坑

Advance - PCI Subsystem Settings - 4G Above / Re-size BAR

Advance - 启动项 - CSM

内核 - 主显卡、集成显卡配置

设置集成显卡作为主显卡、设置 iGPU Configuration 为 UMA Auto // Buffer size Auto、设置 GPU Host Translation Cache 为 Enable

最后这几步主要是为保证系统不拿 V100 显示输出,而只用集显做输出,然后调整性能策略

本人应该是先配置的 BIOS、下载驱动后(未安装)后才装的显卡,操作上面这样应该比较合理些

至少可以避免插上显卡就黑屏导致的频繁插拔问题

同样可以避免 Ubuntu 在安装系统时就安装不必要驱动的问题,可以说一举多得

后面插入显卡后,首先对其进行识别,能够识别到后才确定版本、下载驱动(CUDA 12.8)

驱动上面建议自己选择 CUDA 12.8 适配深度学习环境,同时直接选择 Linux 版本而不细选小版本

下载驱动的过程中建议关闭图形界面:(别问为什么,关了总比不关好)

1
sudo systemctl isolate multi-user.target

利用远程服务下载驱动,并测试驱动结果、测试亮屏效果,然后进行重启

若重启后依旧能正常亮屏、nvidia-smi 输出正常,且图形界面能用 glxinfo | grep “OpenGL renderer” 捕捉到核显,那么彻底没问题


后续 1:

CPU 风扇略微有点吵,于是开始排除其中的问题

首先由于看到风扇是四线风扇,所以认为该风扇理应具有调速功能,从该方向考虑

尝试软件调速、BIOS 调速、切换插口,该风扇转速均不变,保持满转

后续理解 PWM 调制方法后,意识到可能是风扇本身定速,不支持 PWM 调整,即使本身是四线风扇

PWM 调整主要作用在风扇内部,而不是直接作用在主板的风扇电源接口

否则也就没必要额外增设一根调控线

同时也能解释为何任意方式调整都无法实现风速调速的问题,大概率源于此

毕竟主板上 CPU 风扇和系统风扇调速功能同时失效的可能性非常低

结论:重新买个风扇,可调速的四线风扇 // 所以为什么会有四线不可调速风扇???

备注:

1.铁钩式风扇往往滴血认亲,建议先观阅相关视频后再加以操作

2.风扇本身不带有螺纹孔,装上去之前需要用螺丝先攻螺纹

3.风扇不转首先看插口是否正确,虽然有防呆设计但依旧抵不住某些人插错(bushi


后续 2:

V100 掉驱动问题,某日早上起来干活,发现显卡驱动消失,但显卡倒是能正常识别

经过排查后,发现应该是掉驱动,后面进一步查阅后感觉和内核更新有关

驱动安装本身是无问题的,平台也是没问题的,显卡也能识别,说明大概率是软件上面的问题

回忆这几天也就更新包、更新内核版本一次,问题大概率就出在这个地方

驱动本身是用 run 包下载的,此驱动程序本身是基于当时内核版本编译的,一旦换版本就会掉

不过如果是采用 apt 或者 DKMS 方式下载的话,那么内核版本就不会影响,会自动管理

解决方案:重新利用 run 包安装驱动,本次采用 DKMS 方案

由于驱动程序包具有自动清理和安装功能,其实可以不必手工清理旧驱动,但若不放心可以清理

检测:

1
2
3
4
5
6
lsmod | grep nvidia

dpkg -l | grep nvidia-driver

sudo mokutil --sb-state

前两条指令大概率是空的,最后一句用于排查 Secure Boot 引发的原因(改过 BIOS 可能误操作)

清理:

1
2
3
4
5
6
sudo apt purge 'nvidia-*'

sudo reboot

sudo systemctl stop gdm

下载 DKMS 包(用于管理后续内核更新时的驱动自编译)

1
2
3
4
sudo apt install dkms -y

dkms --version

安装驱动:(禁止图形界面输出、运行安装程序)

1
2
3
sudo systemctl stop gdm

sudo bash NVIDIA-Linux-x86_64-570.195.03.run --dkms

检测:

1
2
3
4
5
nvidia-smi

sudo dkms status

sudo systemctl start gdm

检测的话建议重启后再度检测一遍,同时在图形界面检测核显显示功能,一切正常可以继续干活

注解:

1.远程命令行连接时,检测不会有任何输出,因为没有图形界面

2.远程桌面连接时,检测只能检测到 V100 作为远程图像输出

3.本地用 VGA/HDMI 接口连接时,检测才能检测到核显作为图形输出

4.不建议修复(2)中提到的问题,虽然会导致资源占据,只要避免跑程序的时候用远程桌面即可

虽然理论上可以靠软件策略改进使得显存占用变为内存占用,但必要性不高


后续 3:

Linux 系统装钉钉会存在问题,其解决方案:

首先是权限问题(新版本问题),该问题可以依靠系统权限方案以命令行形式运行程序解决

然后再是包依赖的问题,只需要按照对应帖内的方法操作即可(实际是主动引入包)

https://blog.csdn.net/weixin_44162814/article/details/139791969

https://blog.csdn.net/lanyingtianshiabc/article/details/151902387


后续 4:

本来想着开下 Windows 系统试试,结果发现报错,于是考虑排查原因