
要約
従来、トラッキングは空間と時間にわたって関心点を追跡する技術として捉えられてきた。しかし、強力な深層ネットワークの登場により、この分野は大きく変化した。現在では、物体検出を実行した後、時間的な関連付けを行うパイプライン、いわゆる「検出によるトラッキング(tracking-by-detection)」が主流となっている。本論文では、最先端技術を上回る簡潔性、高速性、精度を持つ、同時検出とトラッキングを実現するアルゴリズムを提案する。本研究で提唱するトラッカー「CenterTrack」は、前フレームからの検出結果と画像のペアを入力として、検出モデルを適用する。この最小限の入力情報に基づき、CenterTrackは物体の位置を推定し、前フレームとの対応関係を予測する。これだけである。CenterTrackは構造が単純であり、オンライン処理(未来の情報を覗き見しない)かつリアルタイム処理が可能である。MOT17チャレンジでは22 FPSで67.3%のMOTAを達成し、KITTIトラッキングベンチマークでは15 FPSで89.4%のMOTAを記録し、いずれのデータセットにおいても新たな最先端性能を樹立した。さらに、追加の3D属性を回帰する手法により、単眼3Dトラッキングへの容易な拡張が可能である。単眼動画入力を用いた場合、新しく公開されたnuScenes 3Dトラッキングベンチマークにおいて[email protected]で28.3%を達成し、同ベンチマークにおける単眼ベースラインを大きく上回りながら、28 FPSの実行速度を維持している。