算子融合属于比较复杂的操作,其背后原理和机理都比较复杂,目前不建议自行融合算子

算子融合尽可能直接用编译处理即可,不建议在没有足够理解的情况下手工融合

从基础知识上推理,计算复杂型算子的融合提升不会太明显,轻量计算的算子融合提升则会较明显

这个结论基本和实验结果吻合,但仍待进一步的验证和学习


补注:

1.手工融合算子导致的显存下降、速度下降问题的原因依旧值得研究

2.编译是否在某些情况下无法识别可优化的算子,这一点同样值得深究和探索

3.编译对算子融合的逻辑是值得学习的

4.计算复杂算子的融合、计算轻量算子的融合,其提升效果和影响因素,同样值得继续实验

5.关于显存、GPU 相关的性能瓶颈及相关原理知识,同样值得继续学习、研究

6.关于 Triton 库及相关的高性能编程方案,以及编译相关的优化方案,同样值得学习