
要約
自己監督タスク、例えば着色(colorization)、欠損補完(inpainting)、ジグソーパズルが、ラベル付き画像の数が限られているか全く存在しない場合に、静止画の視覚表現学習のために利用されてきました。最近では、人間によるラベリングのコストがさらに高くなる動画領域にもこの価値ある研究の流れが拡大しています。しかし、既存の方法の多くは依然として2次元CNNアーキテクチャに基づいており、動画アプリケーションに必要な時空間情報を直接捉えることができません。本論文では、大規模な動画データセットを使用して3次元CNNを訓練する新しい自己監督タスクである\textit{時空間キュービックパズル}を導入します。このタスクでは、ネットワークに並べ替えられた3次元時空間クロップを配置させることが要求されます。\textit{時空間キュービックパズル}を完成させることで、ネットワークは動画フレームの空間的な外観と時間的な関係性を学習し、これが我々の最終目標です。実験においては、我々が学習した3次元表現がアクション認識タスクに良好に転移することを示し、UCF101およびHMDB51データセットにおいて最新の2次元CNNベースの競合他社よりも優れた性能を発揮することを確認しました。