11日前

グローバルトラッキングトランスフォーマー

Xingyi Zhou, Tianwei Yin, Vladlen Koltun, Philipp Krähenbühl
グローバルトラッキングトランスフォーマー
要約

我々は、グローバルな多対象追跡(multi-object tracking, MOT)を実現する新たなTransformerベースのアーキテクチャを提案する。本ネットワークは短いフレームシーケンスを入力として受け取り、すべての対象に対するグローバルな軌跡を出力する。核心となる構成要素は、シーケンス内のすべてのフレームに存在する対象を対象に処理するグローバル追跡Transformerである。このTransformerは、すべてのフレームから得られる対象特徴を符号化し、軌跡クエリ(trajectory queries)を用いてそれらを軌跡にグループ化する。軌跡クエリは単一フレームからの対象特徴として定義されており、自然に一意の軌跡を生成する。本グローバル追跡Transformerは、中間段階でのペアワイズなグループ化や組み合わせ的アソシエーションを必要とせず、対象検出器と同時に学習可能である。代表的なMOT17ベンチマークにおいて、75.3のMOTAおよび59.1のHOTAという競争力のある性能を達成した。さらに重要な点として、本フレームワークは最先端の大規模語彙(large-vocabulary)検出器とシームレスに統合可能であり、任意の対象を追跡することが可能である。挑戦的なTAOデータセットにおける実験結果から、本フレームワークはペアワイズアソシエーションに基づくベースラインに対して一貫して優れた性能を発揮し、公表された既存手法を7.7ポイントの追跡mAPで上回った。コードはhttps://github.com/xingyizhou/GTRにて公開されている。