ByteTrack : Suivi multi-objets par association de chaque boîte de détection

Le suivi d'objets multiples (MOT) vise à estimer les boîtes englobantes et les identités des objets dans des vidéos. La plupart des méthodes attribuent des identités en associant uniquement les boîtes de détection dont les scores dépassent un seuil prédéfini. Les objets dont les scores de détection sont faibles — par exemple, ceux partiellement masqués — sont simplement ignorés, ce qui entraîne des manques d'objets réels et des trajectoires fragmentées, des erreurs non négligeables. Pour résoudre ce problème, nous proposons une méthode d'association simple, efficace et générique, consistant à associer presque toutes les boîtes de détection, plutôt que seulement celles aux scores élevés. Pour les boîtes de détection à faible score, nous exploitons leur similarité avec les tracklets afin de reconstruire les objets réels et d'éliminer les détections de fond. Appliquée à 9 trackers d'état de l'art différents, notre méthode améliore de manière cohérente le score IDF1, avec une augmentation allant de 1 à 10 points. Pour atteindre des performances au sommet de l'art en MOT, nous avons conçu un tracker simple mais puissant, nommé ByteTrack. Pour la première fois, nous atteignons des résultats de 80,3 MOTA, 77,3 IDF1 et 63,1 HOTA sur l'ensemble de test de MOT17, avec une vitesse d'exécution de 30 FPS sur une seule GPU V100. ByteTrack obtient également des performances d'état de l'art sur les benchmarks de suivi MOT20, HiEve et BDD100K. Le code source, les modèles pré-entraînés avec des versions prêtes à déployer, ainsi que des tutoriels pour intégrer la méthode dans d'autres trackers sont disponibles à l'adresse suivante : https://github.com/ifzhang/ByteTrack.