
摘要
视频数据体量庞大,预处理复杂,训练速度缓慢。当前最先进的大规模视频模型通常需要在32块或更多GPU组成的集群上训练数天时间。因此,学术界在很大程度上已将大规模视频模型的训练工作让渡给工业界。本文展示了一种在单台机器上仅使用8块消费级GPU,即可在一天内完成最先进的视频模型训练的方法。我们识别出三个主要瓶颈——I/O、CPU与GPU计算,并对每一环节进行了优化。最终构建出一个高效且性能卓越的视频训练流水线。在相同模型架构下,我们的方法在仅需先前工作1/8计算量的情况下,仍能实现更高的准确率。相关代码已开源,地址为:https://github.com/zhaoyue-zephyrus/AVION。