動画と画像を用いたCo-training Transformerによる行動認識の向上

アクション認識の学習において、モデルは通常、画像データ(例:ImageNet)を用いた物体認識タスクで事前学習された後、動画を用いてターゲットとなるアクション認識タスクに微調整される。このアプローチは、最近のTransformerベースの動画アーキテクチャと併用することで、良好な実証的性能を達成している。近年、多くの研究がアクション認識向けにより高度なTransformerアーキテクチャの設計に注力している一方で、動画Transformerの学習方法に関する取り組みはそれほど進んでいない。本研究では、複数の学習パラダイムを検討し、2つの重要な発見を提示する。第一に、動画Transformerは、多様な動画データセットおよびラベル空間(例:Kineticsは外見に焦点を当て、SomethingSomethingは運動に焦点を当てる)を統合的に学習することで恩恵を受ける。第二に、単一フレームの動画として扱える画像データと併せて学習(co-training)することで、動画Transformerはさらに優れた動画表現を学習できる。本手法を「アクション認識のための動画と画像の共学習(Co-training Videos and Images for Action Recognition, CoVeR)」と呼ぶ。特に、TimeSFormerアーキテクチャに基づきImageNet-21Kで事前学習した場合、CoVeRはKinetics-400のTop-1精度を2.4%、Kinetics-600を2.3%、SomethingSomething-v2を2.3%向上させる。また、従来の最先端手法と同様に、より大規模な画像データセットで事前学習を行う場合、CoVeRはKinetics-400(87.2%)、Kinetics-600(87.9%)、Kinetics-700(79.8%)、SomethingSomething-v2(70.9%)、Moments-in-Time(46.1%)において、単純な空間時間的Transformerを用いて最良の結果を達成した。