
本稿では、エゴセントリック行動予測(egocentric action anticipation)という問題に取り組む。すなわち、カメラ装着者が近い将来に実行する行動およびその対象となる物体を予測する課題である。具体的には、エゴセントリック動画から行動を予測するための学習アーキテクチャとして「Rolling-Unrolling LSTM(RULSTM)」を提案する。本手法は以下の3つの要素に基づく:1)過去の状況を要約し、未来を推論するというサブタスクをそれぞれモデル化する2つのLSTMから構成されるアーキテクチャ、2)LSTMが異なるサブタスクに適切に注目できるように促進する「Sequence Completion Pre-Training(シーケンス完了事前学習)」技術、3)RGBフレーム、光学流フィールド、オブジェクトベース特徴を処理して得られるマルチモーダル予測を効率的に統合するための「Modality ATTention(MATT)」メカニズム。提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetの3つのデータセット上で検証された。実験の結果、本手法はエゴセントリック動画分野において最先端の性能を達成しており、2019年のEPIC-Kitchensエゴセントリック行動予測チャレンジにおいてトップスコアを記録した。また、教師なし事前学習を用いない手法と比較してもActivityNetにおいて競争力ある性能を示し、早期行動認識および一般の行動認識タスクへの汎化能力も確認された。この困難な研究分野の発展を促進するため、本研究のコード、学習済みモデル、および事前に抽出された特徴量を、以下のウェブページにて公開している:http://iplab.dmi.unict.it/rulstm。