Ubuntu 系统安装与 V100 显卡适配
本处仅记录产生过问题、容易踩坑的部分: Ubuntu 系统安装: 参考文章: https://hs.cnies.org/archives/dual-boot-ubuntu2404-win11 https://zhuanlan.zhihu.com/p/644425528 https://blog.csdn.net/2401_84064328/article/details/137232169 首先是分区克隆,逐文件克隆会导致分区功能失效,尤其是恢复分区,慎重对待分区克隆、复制 尽可能采用逐扇区克隆的方式 然后是对安装系统前的一些注意事项: BIOS(Secure Boot、UEFI、Fast Boot、SATA Mode AHCI、引导设备顺序)、Bitlocker/设备加密、磁盘分区格式、关闭休眠和快速启动、禁止 Windows 更新 引导设备顺序的话,稍微有点不一样,分多个栏来确定顺序而不是单个栏确定的 其中设备加密在某些设备上不一定存在,没有的话就不用管,参考文章: https://iknow.lenovo.com.cn/detail/424764 安装系统过程中大...
显存开销相关实验
模型训练过程中,显存开销主要来源: 模型参数显存、激活显存、优化器状态、梯度显存 其中模型参数显存只同参数规模有关,优化器状态和梯度显存只和训练参数量相关 激活显存则主要同模型参数规模、计算图、输入数据大小等相关 激活显存往往是模型训练过程中占比最大的,其同输入数据长度、内部维度等因素相关较大 梯度显存则往往同参数显存相等,优化器状态取 Adam,则为梯度显存的两倍 激活显存主要用于计算梯度,若计算梯度时不需要该激活显存,则会被系统自动释放 前馈过程中只有模型参数显存、激活显存 反向传播过程中才会出现梯度显存、优化器状态显存 注:Adam 由于需要保留上一轮结果来计算本轮,因而其在第一轮训练后会常驻显存 注:反向传播过程中,激活显存会逐渐释放 参考文章: 常规梯度的计算策略 PyTorch显存可视化与Snapshot数据分析 这里为三个实验,通过实验可以验证一些事实: 实验 A:全量调整模型 实验 B:冻结模型其他参数,仅调整第一层(前馈第一层) 实验 C:冻结模型其他参数,仅调整最后一层(前馈最后一层) 上述三个实验中,第一张图是 Warm up 产出的数据(预热...
算法效率系列
技术来源: PyTorch 官方文档:https://docs.pytorch.ac.cn/tutorials/recipes/recipes/tuning_guide.html 阿里云社区:https://developer.aliyun.com/article/1661613 知乎博文: A: https://zhuanlan.zhihu.com/p/359720877 B: https://zhuanlan.zhihu.com/p/538605620 C: https://zhuanlan.zhihu.com/p/345279772 D: https://zhuanlan.zhihu.com/p/595318436 个人博客: A: https://sebastianraschka.com/blog/2023/pytorch-faster.html) B: https://www.hiascend.com/doc_center/source/zh/Pytorch/600/ptmoddevg/trainingmigrguide/performance_tuning_0067....
问题合集
Git 无法成功克隆项目的问题 同局域网主机间互 SSH 不成功的问题 电脑可选下载功能消失的问题 GPU 功耗与计算效率问题 关于 MISSRec 适配不同数据集时的问题 关于谷歌云盘访问过度无法下载的问题
博客配置
关于 Hexo 博客下载整流程(未部署到云)参考: https://blog.csdn.net/2401_83582688/article/details/144380760 其中,Git、Node.js 的下载本人均是采用安装包的下载方式,方便选择兼容、问题少的版本 初始化 Hexo 过程,需要注意这样一点: hexo init blog 必须要在空的文件夹下进行,即上文创建的文件夹是用于该步骤的 需要在这个文件夹内打开 Git Bash 再进行初始化部署 Butterfly 主题安装后,可以将其配置文件重命名为 _config.butterfly.yml 放在根目录配置 其配置文件的修改参考该文章:https://zhuanlan.zhihu.com/p/492207978 其中,分类、标签页的丢失(Cannot GET)问题参考该文章: https://www.voycn.com/article/hexo-butterfly-cannot-get-tags-categorieschuxian404 部署上,参考文章: https://blog.csdn.net/qq_22...
