(未实验、未实现、未确定、不常用):


分布式优化:(主要见 PyTorch 官网)

1.deepspeed

2.ddp、ddp优化方案

3.绑定 NUMA 节点,避免跨插槽访问


训练优化:

1.合理初始化模型参数


代码优化:

1.减少设备间的迁移、内存与显存间的迁移、访存频率、访盘频率

2.减少 CPU、GPU 间的同步,令 CPU 尽可能超前于 GPU,让两者各司其职

2.利用nn.Sequential、nn.ModuleList 管理层,少用循环遍历层

3.多利用自带库函数计算

4.利用现有高度优化的代码段来替代手写代码段

5.优化性能瓶颈(常见 Python 向量化操作)


系统优化:

1.Compile编译后端(Triton编程、OpenMp、C++ and so on)

2.禁用PyTorch中的调试API

3.利用Intel OpenMP 运行时库 (libiomp)