観測中心型SORT:ロバストな複数対象追跡のためのSORTの再考

複数対象追跡(Multi-Object Tracking: MOT)におけるカルマンフィルタ(Kalman Filter: KF)に基づく手法は、物体の運動が線形であると仮定している。この仮定は非常に短時間の遮蔽(occlusion)に対しては妥当であるが、長時間にわたる運動推定においては著しく不正確となる。さらに、カルマンフィルタのパラメータ更新に測定値が得られない期間では、標準的な扱いとして事前推定(priori state estimation)を信頼し、事後更新(posteriori update)に用いる。このため、遮蔽期間中に誤差が蓄積され、実際の追跡において運動方向の大きなばらつきが生じる。本研究では、遮蔽期間中に蓄積されるノイズに適切に対処することで、基本的なカルマンフィルタでも最先端の追跡性能を達成できることを示す。単に線形状態推定(推定中心的アプローチ)に依存するのではなく、物体検出器による観測値(測定値)を用いて遮蔽期間中の仮想軌道(virtual trajectory)を計算し、フィルタパラメータの誤差蓄積を補正する。これにより、遮蔽期間中に蓄積された誤差をより多くの時間ステップで修正可能となる。本手法を「観測中心的SORT(Observation-Centric SORT: OC-SORT)」と命名する。OC-SORTはシンプルかつオンライン・リアルタイム性を維持しつつ、遮蔽や非線形運動に対するロバスト性を大幅に向上させる。既存の検出結果を入力とし、単一CPU上で700 FPS以上で動作可能。MOT17、MOT20、KITTI、頭部追跡、特に物体の運動が高度に非線形であるDanceTrackなど、複数のデータセットで最先端の性能を達成している。コードおよびモデルは以下のURLで公開されている:\url{https://github.com/noahcao/OC_SORT}。