不同文件的读取与加速策略
不同文件格式的读取策略、其余常规加速策略
文本文件如多进程并行中所示,主要根据具体的实验效果确定,但常规思路如下:
能实现 chunk 就直接用 chunk
内存装不下用按需加载,能装下用内存加载
图像文件较为特殊,常规情况下其为多个单文件组成,无法照搬文本文件思路,但常规如下:
转为类文本文件的读取方案进行读取
按需读取(即使放在内存也没作用,I/O 次数完全一样)
其余思路(值得重点研究):
1.英伟达 DALI 模块
2.现有顶会论文中对数据加载、预处理的实现方案
补注:
1.由于图片文件、文本文件的读取思路完全不同,做实验时理应控制该变量避免研究方向出错
2.尽可能多基于同行现有的解决方案完善、解决问题
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Ephemeral!