
要約
本稿では、短時間の行動予測(short-term action anticipation)という問題に取り組む。具体的には、行動が発生する1秒前までにその将来の行動を予測することを目的とする。本研究では、将来的に起こる行動を予測するために、高レベルの意図(high-level intent)情報を活用する手法を提案する。そのために、モデルに追加の目標予測ブランチを組み込み、予測される行動が動画内で追求される高レベルな目標と整合性を持つように促す一貫性損失関数(consistency loss function)を提案する。実験の結果、提案手法の有効性を示し、Assembly101およびCOINという2つの大規模データセットにおいて、最先端(state-of-the-art)の性能を達成することを実証した。