技术来源:

PyTorch 官方文档:https://docs.pytorch.ac.cn/tutorials/recipes/recipes/tuning_guide.html

阿里云社区:https://developer.aliyun.com/article/1661613

知乎博文:

A:

https://zhuanlan.zhihu.com/p/359720877

B:

https://zhuanlan.zhihu.com/p/538605620

C:

https://zhuanlan.zhihu.com/p/345279772

D:

https://zhuanlan.zhihu.com/p/595318436

个人博客:

A:

https://sebastianraschka.com/blog/2023/pytorch-faster.html)

B:

https://www.hiascend.com/doc_center/source/zh/Pytorch/600/ptmoddevg/trainingmigrguide/performance_tuning_0067.html

C:

https://www.oryoy.com/news/shen-du-xue-xi-jia-su-pytorch-dai-ma-you-hua-quan-gong-lve-gao-bie-di-xiao-kai-qi-gao-xiao-xun-lian.html


涉及的方案及实验:

混合精度编译优化深度可分离卷积向量维度对齐内存分配器Last Channel卷积偏置的去除CUDNN 自动调优器推理模式算子融合梯度 None 替代归零Trainer and FabricDataset/DataLoader 相关其余优化方案(未实验未确定不常用)