
要約
人間の行動を予測することは、自律走行車やロボットアシスタントなどの信頼性の高いインテリジェントエージェントの開発において重要な課題である。予測精度の高い未来予測能力は、予測手法を設計する上で不可欠であるが、推論の速度も同様に重要である。精度は高いが十分に高速でない手法は、意思決定プロセスに高い遅延を引き起こす。その結果、システムの反応時間が長くなる。これは、反応時間が極めて重要な分野、例えば自動運転において重大な問題となる。本研究では、時系列畳み込みに基づくシンプルかつ効果的なマルチモーダルアーキテクチャを提案する。本手法は、再帰層に依存せずに、時系列畳み込み層の階層構造を積み重ねることで高速な予測を実現している。さらに、RGB画像、光流(flow)、物体情報といった複数のモーダル間のペアワイズ相互作用を捉えるマルチモーダル融合機構を導入した。エゴセントリック動画の大規模データセットであるEPIC-Kitchens-55およびEPIC-Kitchens-100における実験結果から、本手法は最先端の手法と同等の性能を達成しつつ、著しく高速であることが示された。