RSPNet: 相対速度認識を用いた非監督動画表現学習

私たちは、ラベルの付いていないビデオから運動と外観の特徴を学習し、その学習結果をアクション認識などの下流タスクに再利用できる非監督ビデオ表現学習について研究しています。しかし、このタスクは1) ビデオ内の非常に複雑な空間時間情報;2) 学習用のラベル付きデータの不足という理由から、極めて困難です。静止画像の表現学習とは異なり、運動と外観の両方の特徴を適切にモデル化する自己監督タスクを構築することは容易ではありません。最近では、ビデオ再生速度予測を通じてビデオ表現を学習するいくつかの試みが行われています。しかし、ビデオに対して正確な速度ラベルを得ることは容易ではなく、さらに重要なのは、学習されたモデルが運動パターンに焦点を当てがちであり、外観特徴を十分に学習できない可能性があることです。本論文では、相対的な再生速度が運動パターンとより一貫性があり、したがって表現学習に対する効果的で安定した教師あり信号を与えることを観察しました。そこで、新しい方法として再生速度の知覚と二つのビデオクリップ間の相対速度を使用してラベル化することを提案します。これにより、速度を適切に知覚し、より良い運動特徴を学習することが可能になります。また、外観特徴の学習も確保するために、二つのビデオクリップ間の外観差異を知覚させる外観重視タスクも提案します。実験結果から、これらの二つのタスクを共同で最適化することで下流タスク(アクション認識とビデオ検索)での性能が一貫して向上することが示されました。特にUCF101データセットにおけるアクション認識においては、事前学習用にラベル付きデータを使用せずに93.7%の精度を達成し、ImageNetで監督的に事前学習されたモデルよりも優れた性能を発揮しました。コードおよび事前学習済みモデルは https://github.com/PeihaoChen/RSPNet で公開されています。