11日前
TrackFormer:Transformersを用いたマルチオブジェクトトラッキング
Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, Christoph Feichtenhofer

要約
多対象追跡(Multi-Object Tracking: MOT)という挑戦的な課題は、トラックの初期化、IDの識別、空間時間的軌道の同時推論を必要とする。本研究では、この課題をフレーム間のセット予測問題として定式化し、エンコーダ-デコーダ構造を採用したTransformerアーキテクチャに基づくエンドツーエンド学習可能なMOT手法であるTrackFormerを提案する。本モデルは、動画シーケンス全体にわたってトラック予測の集合を進化させることで、アテンション機構を用いてフレーム間のデータ関連付けを実現する。Transformerデコーダは静的なオブジェクトクエリから新たなトラックを初期化し、概念的に新規かつIDを保持するトラッククエリを用いて、空間的・時間的に既存のトラックを逐次追跡する。両方のクエリタイプは、フレーム全体のグローバルな特徴量に対する自己アテンションおよびエンコーダ-デコーダアテンションの恩恵を受けるため、追加のグラフ最適化や運動・外観のモデル化を必要としない。TrackFormerは、アテンションを用いた新たな追跡アーキテクチャを提案し、設計は単純であるが、多対象追跡(MOT17およびMOT20)およびセグメンテーション(MOTS20)において最先端の性能を達成している。コードは https://github.com/timmeinhardt/trackformer にて公開されている。