如图所示,该结果是基于成千上万次矩阵运算循环得到的平均结果,基本有一倍的差异

其机理在于对齐 GPU 最小计算单元的维度,从而减少额外计算开销

从实战角度看,对齐向量维度为倍数是很重要的,比较建议作为一个标准看待


补注:

1.但具体效果的显著性还没有充分论证,以下实验应当是必要的:

本实验项目,消融不对齐的维度数量、不对齐的维度差额(距对齐的维度差额为多少)

其他实验项目,对齐/不对齐对性能的影响,同样值得做实验,并依据此总结影响因素和影响逻辑

2.此外,若需要以对齐为标准,何时向上对齐、何时向下对齐同样值得思索(或许需要具体消融)

3.硬件层面最小计算单元的维度数量并不统一,这部分也可以多加调研

4.相关的内存、显存对齐格式,或许也是值得思考的方向