不同文件格式的读取策略、其余常规加速策略

文本文件如多进程并行中所示,主要根据具体的实验效果确定,但常规思路如下:

能实现 chunk 就直接用 chunk

内存装不下用按需加载,能装下用内存加载

图像文件较为特殊,常规情况下其为多个单文件组成,无法照搬文本文件思路,但常规如下:

转为类文本文件的读取方案进行读取

按需读取(即使放在内存也没作用,I/O 次数完全一样)

其余思路(值得重点研究):

1.英伟达 DALI 模块

2.现有顶会论文中对数据加载、预处理的实现方案

补注:

1.由于图片文件、文本文件的读取思路完全不同,做实验时理应控制该变量避免研究方向出错

2.尽可能多基于同行现有的解决方案完善、解决问题