
現代の多目的追跡(MOT)システムは通常、\emph{検出による追跡}パラダイムに従っています。このパラダイムには1) 目標の位置特定を行う検出モデルと2) データ関連付けを行う外観埋め込みモデルが含まれます。これらの2つのモデルを別々に実行すると、共有できる潜在的な構造を調査せずに実行時間が単純に2つのステップの合計となるため、効率性の問題が生じる可能性があります。リアルタイムMOTに関する既存の研究は通常、関連付けステップに焦点を当てているため、本質的にはリアルタイム関連付け手法であり、完全なリアルタイムMOTシステムとは言えません。本論文では、目標検出と外観埋め込みを共有モデルで学習できるMOTシステムを提案します。具体的には、外観埋め込みモデルをシングルショット検出器に組み込むことで、モデルが同時に検出結果と対応する埋め込みを出力できるようにしています。さらに、この統合モデルと連携して動作するシンプルかつ高速な関連付け手法も提案します。両方のコンポーネントにおいて計算コストが大幅に削減され、以前のMOTシステムよりも洗練され且つ高速なベースラインが提供されます。これにより、今後のリアルタイムMOTアルゴリズム設計における基盤となります。当該研究では、入力解像度によって22〜40 FPSの実行速度を持つ(ほぼ)リアルタイムMOTシステムとして初めて報告されています。一方で、その追跡精度は独立した検出と埋め込み(SDE)学習を採用する最先端のトラッカーと同等であることが確認されています(MOT-16チャレンジでのMOTAスコア:$64.4\%$ \vs $66.1\%$)。コードおよびモデルは\url{https://github.com/Zhongdao/Towards-Realtime-MOT}から入手可能です。