其余优化方案

发表于2025-10-01|更新于2025-10-02

|浏览量:

（未实验、未实现、未确定、不常用）：

分布式优化：（主要见 PyTorch 官网）

1.deepspeed

2.ddp、ddp优化方案

3.绑定 NUMA 节点，避免跨插槽访问

训练优化：

1.合理初始化模型参数

代码优化：

1.减少设备间的迁移、内存与显存间的迁移、访存频率、访盘频率

2.减少 CPU、GPU 间的同步，令 CPU 尽可能超前于 GPU，让两者各司其职

2.利用nn.Sequential、nn.ModuleList 管理层，少用循环遍历层

3.多利用自带库函数计算

4.利用现有高度优化的代码段来替代手写代码段

5.优化性能瓶颈（常见 Python 向量化操作）

系统优化：

1.Compile编译后端（Triton编程、OpenMp、C++ and so on）

2.禁用PyTorch中的调试API

3.利用Intel OpenMP 运行时库 (libiomp)

文章作者: CH3OH

文章链接: http://example.com/2025/10/01/%E5%85%B6%E4%BD%99%E4%BC%98%E5%8C%96%E6%96%B9%E6%A1%88/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Ephemeral！