
要約
本論文では、複数物体予測(Multiple Object Forecasting: MOF)の問題を紹介します。この問題の目的は、追跡された物体の将来のバウンディングボックスを予測することです。既存の物体軌道予測に関する研究が主に上空からの視点で問題を考えているのに対し、私たちは物体レベルの視点から問題を定式化し、軌道だけでなく完全な物体バウンディングボックスの予測を求めます。この課題解決に向けて、20万枚以上の高解像度ビデオフレームから構成されるCitywalksデータセットを導入します。Citywalksデータセットには、10カ国のヨーロッパに位置する21都市で多様な天候条件下で記録された映像と3,500件以上のユニークな歩行者軌道が含まれています。評価のために、既存の軌道予測手法をMOFに適応させ、微調整せずにMOT-17データセット上でクロスデータセット汎化性を確認しました。最後に、STEDという新しいエンコーダー-デコーダー構造を提案します。STEDは視覚的特徴と時間的特徴を組み合わせて、物体運動と自我運動(ego-motion)双方をモデル化し、既存のMOFアプローチを上回る性能を示しています。コードおよびデータセットリンク:https://github.com/olly-styles/Multiple-Object-Forecasting