
要約
動画は大容量であり、事前処理が複雑で、学習に時間がかかる。最先端の大規模な動画モデルは、数日間にわたり32台以上のGPUを搭載したクラスタ上で学習されることが一般的である。その結果、学術界は大規模な動画モデルの学習を産業界に委ねざるを得なくなっていた。本論文では、1台のマシンに搭載された8台のコンシューマー向けGPUを用いて、1日以内に最先端の動画モデルを学習可能であることを示す。我々はI/O、CPU、GPU計算の3つの主要なボトルネックを特定し、それぞれを最適化した。その結果、極めて効率的な動画学習パイプラインが実現された。同等のアーキテクチャにおいて、本研究のパイプラインは、従来手法に比べて計算量の1/8でより高い精度を達成している。コードは https://github.com/zhaoyue-zephyrus/AVION にて公開されている。