多进程基本原理
多进程模式下,collate、getitem 均由子进程独立负责,主进程不参与数据预处理
本实验中,数据预处理部分被分别放置在 getitem、collate 中,以测试两者是否均被子进程包含
从实际结果上看,两者速率接近,意味着均被子进程包含、并行处理
且从结果上看,collate 速率略快,该提升或许来源于更少的计算调用频率/调用开销
此外,数据规模虽多倍增长,但处理时间没有多倍增长,可略认为数据集越大效率越高
补注:
1.预处理部分放在 getitem、collate 的不同方案在效率上的差异、差异的来源值得实验
目前比较合理的假设是该效率改变来源于计算调用开销的降低,但值得验证
2.数据规模与处理时间不成正比的增长差异来源值得实验
目前比较合理的假设是该差异来源于程序代码的预热、非计算开销
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Ephemeral!