
要約
従来、多対象追跡(multi-object tracking)と物体検出(object detection)は、それぞれ独立したシステムによって実行されており、これまでの多くの研究は、両者のいずれかにのみ注力してきた。追跡システムは正確な検出結果を活用できることで明確な利点を得られるが、文献に示されるように、検出器も追跡の恩恵を受けることが多く、たとえば時系列にわたる予測の滑らかさを向上させる役割を果たす。本論文では、自動運転において両タスクがミッションクリティカルな「検出に基づく追跡(tracking-by-detection)」アプローチに注目する。そこで、検出と追跡を統合的に処理できる概念的にシンプルかつ効率的なモデル、RetinaTrackを提案する。このモデルは、単段階型の代表的なアーキテクチャであるRetinaNetを改変し、インスタンスレベルの埋め込み(instance-level embedding)学習に適した構造としている。Waymo Open Datasetを用いた評価により、最新の最先端追跡アルゴリズムを上回る性能を達成しつつ、大幅に少ない計算リソースを要することを示した。本研究で提示するシンプルでありながら効果的なアプローチが、今後のこの分野における強力なベースラインとなると確信している。