2ヶ月前

Shuffle and Learn: 時系列順序検証を用いた非監督学習

Ishan Misra; C. Lawrence Zitnick; Martial Hebert
Shuffle and Learn: 時系列順序検証を用いた非監督学習
要約

本論文では、動画の生の空間時間信号から視覚表現を学習する手法を提案します。当該表現は、意味ラベルからの監督なしで学習されます。我々の手法は、非監督的な連続検証タスクとして定式化され、つまり動画のフレーム列が正しい時間順序であるかどうかを判定します。この単純なタスクと意味ラベルを使用せずに、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を用いて強力な視覚表現を学習します。この表現には、ImageNetのような監督付き画像データセットから学習される情報とは補完的な情報が含まれています。定性的結果は、当該手法が人間の姿勢などの時間的に変化する情報を捉えていることを示しています。行動認識の前処理として使用した場合、UCF101やHMDB51などのベンチマークデータセットにおいて外部データなしでの学習よりも大幅な改善が見られます。人間の姿勢に対する感度を示すために、FLICおよびMPIIデータセットにおける姿勢推定の結果を提示し、これらは多くの監督を使用する手法と同等かそれ以上の性能を示しています。当該手法は、監督付き表現と組み合わせることで精度向上にさらに寄与することができます。