
行動が実行される前にその行動を予測することは、自動運転やロボティクスを含む幅広い実用的応用において極めて重要である。本論文では、エゴセントリック動画において、実際に行動が行われる数秒前までに将来の行動を予測する「エゴセントリック行動予測」タスクに焦点を当てる。従来のアプローチは、観測された内容を要約し、過去の観測に基づいて将来の行動を直接予測するものであった。我々は、未観測フレームにおける情報欠落を補完するための手がかりを抽出できれば、行動予測の性能が向上すると考える。そこで、行動予測を一連の将来特徴の予測に分解するアプローチを提案する。近い将来における視覚的特徴の変化を「想像」し、その想像された表現に基づいて将来の行動ラベルを予測する。従来のアプローチとは異なり、本研究で提案するImagineRNNは特徴回帰ではなく、対照学習(contrastive learning)の枠組みで最適化される。具体的には、偽物(distractors)の中から正しい将来状態を選択するという代理タスク(proxy task)を用いてImagineRNNを学習する。さらに、残差予測(residual anticipation)を導入することでImagineRNNを改善する。すなわち、フレームの内容そのものではなく、隣接フレーム間の特徴差分を予測するタスクに変更する。これにより、ネットワークは将来の行動予測という本質的なタスクに集中しやすくなる。なぜなら、隣接フレーム間の特徴差分は将来の動きを予測する上でより重要な情報を含んでいるからである。2つの大規模なエゴセントリック行動データセットを用いた広範な実験により、本手法の有効性が検証された。EPIC Kitchens行動予測チャレンジにおける「既視テストセット」と「未視テストセット」の両方において、本手法は従来手法を著しく上回る性能を達成した。