9日前
MSPred:階層的再帰ネットワークを用いた複数スパティオ時空間スケールにおける動画予測
Angel Villar-Corrales, Ani Karapetyan, Andreas Boltres, Sven Behnke

要約
自律システムは、現在の環境を理解するだけでなく、過去の状態を条件として将来の行動を予測する能力も必要とされる。たとえば、カメラによってキャプチャされたフレームに基づいて予測を行うことが挙げられる。しかし、従来のモデルは主に短時間スケールでの将来の動画フレームを予測することに焦点を当てており、長期的な行動計画においては限界がある。本研究では、異なる空間時系列スケールにおいて、さまざまな粒度の将来の可能な結果を同時に予測できる新しい動画予測モデル「マルチスケール階層予測(Multi-Scale Hierarchical Prediction, MSPred)」を提案する。空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長期にわたる抽象表現(たとえば人間のポーズや位置)を効率的に予測しつつ、動画フレーム予測においても競争力のある性能を維持できる。実験では、MSPredがバインピッキングや行動認識のデータセットにおいて、将来の動画フレームおよび高レベル表現(例:キーポイントや意味情報)を正確に予測でき、既存の主流手法よりも一貫して優れた性能を発揮することを示した。さらに、MSPredにおける異なるモジュールおよび設計選択の影響をアブレーション解析することで、空間的・時間的粒度の異なる特徴を統合することが優れた性能をもたらすことを実証した。本研究の実験を再現可能なコードおよびモデルは、https://github.com/AIS-Bonn/MSPred にて公開されている。