其余优化方案
(未实验、未实现、未确定、不常用):
分布式优化:(主要见 PyTorch 官网)
1.deepspeed
2.ddp、ddp优化方案
3.绑定 NUMA 节点,避免跨插槽访问
训练优化:
1.合理初始化模型参数
代码优化:
1.减少设备间的迁移、内存与显存间的迁移、访存频率、访盘频率
2.减少 CPU、GPU 间的同步,令 CPU 尽可能超前于 GPU,让两者各司其职
2.利用nn.Sequential、nn.ModuleList 管理层,少用循环遍历层
3.多利用自带库函数计算
4.利用现有高度优化的代码段来替代手写代码段
5.优化性能瓶颈(常见 Python 向量化操作)
系统优化:
1.Compile编译后端(Triton编程、OpenMp、C++ and so on)
2.禁用PyTorch中的调试API
3.利用Intel OpenMP 运行时库 (libiomp)
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Ephemeral!