6ヶ月前

概要

動画モデルのトレーニングは、対応する画像モデルと比べて1桁以上遅いため、研究サイクルが長くなり、動画理解分野の進展を阻害している。画像モデルのトレーニングで一般的に採用されている手法に従えば、動画モデルのトレーニングも固定されたミニバッチ形状（特定のクリップ数、フレーム数、空間的サイズ）を前提としている。しかし、最適な形状とは何か？高解像度モデルは高い性能を発揮するが、トレーニングが遅い。一方、低解像度モデルは速く学習できるものの、精度が劣る。数値最適化におけるマルチグリッド法に着想を得て、時間的・空間的解像度を異なる複数の形状に可変的に設定し、スケジュールに従って変更するミニバッチ形状の使用を提案する。これらの異なる形状は、複数のサンプリンググリッド上で訓練データを再サンプリングすることによって得られる。他の次元を縮小する際にはミニバッチサイズと学習率を拡大することで、トレーニングを高速化する。実証的に、さまざまなモデル（I3D、Non-local、SlowFast）、データセット（Kinetics、Something-Something、Charades）、およびトレーニング設定（事前学習の有無、128 GPUまたは1 GPU）において、精度を損なうことなく顕著な即時トレーニングスピードアップを実現する汎用的かつ頑健なグリッドスケジュールを示した。具体的な例として、提案するマルチグリッド法は、同じハードウェア上で基準手法と比較して、ResNet-50 SlowFastネットワークのトレーニングを4.5倍高速化するとともに、Kinetics-400データセットにおいて精度も0.8%（絶対値）向上させた。コードはオンラインで公開されている。

ソースPDF