Command Palette
Search for a command to run...
MOTR: エンドツーエンドのマルチオブジェクトトラッキングにTransformerを用いた手法
MOTR: エンドツーエンドのマルチオブジェクトトラッキングにTransformerを用いた手法
Zeng Fangao ; Dong Bin ; Zhang Yuang ; Wang Tiancai ; Zhang Xiangyu ; Wei Yichen
概要
物体の時間的なモデリングは、複数物体追跡(MOT)における重要な課題である。既存の方法では、運動に基づく類似性ヒューリスティックと外観に基づく類似性ヒューリスティックを用いて検出を関連付けて追跡を行う。しかし、関連付けの後処理的な性質により、ビデオシーケンス内の時間変動をエンドツーエンドで活用することが困難となっている。本論文では、DETR を拡張し、全ビデオ内で追跡対象をモデル化するためのトラッククエリを導入した MOTR を提案する。トラッククエリはフレーム間で転送され更新され、時間的に反復予測を行う。また、トラックレットに注意を払ったラベル割り当てを提案し、トラッククエリと新規物体クエリの学習を行う。さらに、時間集約ネットワークと集合平均損失を提案して時間的関係モデリングを強化する。DanceTrack 上での実験結果は、MOTR が最新手法である ByteTrack よりも HOTA 評価指標で 6.5% 高い性能を示していることを示している。MOT17 上でも、同時期に発表された TrackFormer および TransTrack よりも関連付け性能において優れていることが確認された。MOTR は将来の時間的モデリングや Transformer ベースの追跡器に関する研究におけるより強力なベースラインとして機能できる。コードは https://github.com/megvii-research/MOTR から入手可能である。