マルチオブジェクトトラッキングにおける検出とReIDの競合の再考

検出と識別埋め込みを共同で学習するワンショットモデルは、マルチオブジェクトトラッキング(MOT)において、精度と速度のバランスが取れているため、近年大きな注目を集めている。しかし、ワンショット追跡枠組みにおいて検出と再識別(ReID)を独立した二つのタスクとして扱うため、これら二つのタスク間の本質的な相違点および関係性が無意識のうちに無視されがちである。その結果、従来の二段階手法と比較して性能が劣ることが生じている。本論文では、まずこれらのタスクに対する推論プロセスを詳細に分析し、両者の間で必然的に生じる競合関係が、タスク依存的な表現の学習を損なうことを明らかにした。この問題に対処するため、自己関係とクロス関係を組み込んだ新しい相互作用ネットワーク(REN)を提案する。この設計により、各ブランチがより適切にタスク依存的な表現を学習できるように促進する。提案モデルは、検出とReID間の有害な競合を緩和するとともに、両者の協調性を向上させることを目的としている。さらに、尺度に敏感な注意機構を備えたネットワーク(SAAN)を導入し、意味レベルでの不整合を防ぎ、ID埋め込みの関連付け能力を強化する。これらの精密に設計されたネットワークをワンショットオンラインMOTシステムに統合することで、強力なMOTトラッカー「CSTrack」を構築した。本トラッカーは、他の付加的な技術を用いずに、MOT16、MOT17、MOT20の各データセットにおいて最先端の性能を達成している。また、CSTrackは効率性にも優れており、単一の最新GPU上で16.4 FPSで動作し、軽量版ではさらに34.6 FPSまで達している。完全なコードはGitHubにて公開されており、https://github.com/JudasDie/SOTS から入手可能である。