
要約
深層ニューラルネットワークの成功には、大量のラベル付き訓練データが必要であり、これは特にビデオコレクションの場合にコストが高く、大規模化が困難です。この問題を緩和するため、本論文では3DRotNetを提案します。3DRotNetは、ラベルの付いていないビデオから空間時間特徴を学習する完全自己監督型アプローチです。すべてのビデオに対して一連の回転を適用し、これらの回転の予測という前処理タスクを定義します。このタスクを達成することで、3DRotNetは実際にはビデオ内の意味的な概念や動きを理解するために訓練されます。つまり、3DRotNetは空間時間的なビデオ表現を学習し、これが小規模データセットでのビデオ理解タスクの向上に転用できます。我々の広範な実験により、提案されたフレームワークが行動認識において有効であることが成功裏に示されました。大規模データセットから自己監督で事前学習した3DRotNetを使用することで、UCF101では20.4%、HMDB51では16.7%それぞれ認識精度が向上しました。これはスクラッチから訓練されたモデルと比較して大幅な改善となっています。注:「スクラッチ」は「scratch」の音訳で、「最初から」という意味を持ちます。