
複数対象追跡(Multi-Object Tracking: MOT)は、動画理解分野における長年の課題である。自然かつ直感的なアプローチとして、このタスクを対象検出と対応付けの二つの部分に分割することが挙げられる。主流の大多数の手法は、軌跡情報を維持し、対象のマッチングに用いるコスト行列を計算するために、細心の注意を払って設計されたヒューリスティック手法を採用している。これらの手法は著しい追跡性能を達成できるものの、複雑なシナリオにおいては、多数の手作業による調整が必要となる傾向がある。本研究では、手動で仮定された事前知識が、ドメイン固有のデータから最適な追跡能力を学習する際の柔軟性と適応性を制限していると考え、新たな視点を提示する。すなわち、複数対象追跡を「文脈内でのID予測(in-context ID Prediction)」というタスクとして捉え直し、従来の対象対応付けをエンド・トゥ・エンドで学習可能なタスクに変換する。このアプローチに基づき、シンプルでありながら効果的な手法「MOTIP(Multi-Object Tracking with ID Prediction)」を提案する。MOTIPは、ID情報を付与された軌跡の集合を入力とし、現在の検出結果に対して直接IDラベルをデコードすることで、対応付けプロセスを実現する。特化したアーキテクチャや複雑な構造を用いないにもかかわらず、オブジェクトレベルの特徴のみを追跡の手がかりとして利用することで、複数のベンチマークにおいて最先端の性能を達成している。MOTIPのシンプルさと優れた性能は、今後の研究における大幅な進展の余地を残しており、今後の研究における有望なベースラインとなると期待される。本研究のコードおよびチェックポイントは、https://github.com/MCG-NJU/MOTIP にて公開されている。