ByteTrack:すべての検出ボックスを関連付けることによる多対象追跡

多対象追跡(Multi-object tracking: MOT)は、動画内のオブジェクトのバウンディングボックスおよび識別子(ID)を推定することを目的としています。従来の多くの方針は、スコアが閾値を超える検出ボックス同士を関連付けることで識別子を獲得しています。しかし、検出スコアが低いオブジェクト(たとえば遮蔽されているオブジェクトなど)は単に無視されてしまうため、実際のオブジェクトの漏れやトラジェクトリの断片化といった顕著な問題が生じます。この課題を解決するために、本研究では、高スコアの検出ボックスのみに注目するのではなく、ほぼすべての検出ボックスを関連付けるシンプルかつ効果的で汎用性の高い関連付け手法を提案します。特に、低スコアの検出ボックスに対しては、それらとトラッケットレット(tracklet)との類似性を活用して真のオブジェクトを回復し、背景検出をフィルタリングします。この手法を9種類の最先端トラッカーに適用した結果、IDF1スコアにおいて1~10ポイントの一貫した向上が達成されました。MOTの最先端性能をさらに推進するため、シンプルかつ強力なトラッカー「ByteTrack」を設計しました。本研究では、単一のV100 GPU上で30 FPSの実行速度で、MOT17のテストセットにおいて80.3のMOTA、77.3のIDF1、63.1のHOTAを達成しました。また、ByteTrackはMOT20、HiEve、BDD100Kといった複数の追跡ベンチマークでも最先端の性能を達成しています。本研究のソースコード、デプロイ可能なバージョンを含む事前学習済みモデル、および他のトラッカーへの適用ガイドは、https://github.com/ifzhang/ByteTrack にて公開されています。