DEFT : Détection par embeddings pour le suivi

La plupart des systèmes modernes de suivi d’objets multiples (MOT) suivent le paradigme du suivi par détection, composé d’un détecteur suivi d’une méthode d’association des détections en trajectoires. Depuis longtemps, le domaine du suivi a exploré l’intégration de caractéristiques de mouvement et d’apparence afin d’améliorer la robustesse aux occlusions et à d’autres défis, mais cette approche s’accompagne généralement d’un compromis en termes de complexité et de vitesse d’exécution. Les récents succès sur des benchmarks populaires de suivi 2D suggèrent que des résultats de haut niveau peuvent être atteints en combinant un détecteur de pointe avec des associations relativement simples basées sur des décalages spatiaux d’une seule image — une approche qui surpasse notablement les méthodes contemporaines utilisant des caractéristiques d’apparence apprises pour réidentifier les trajectoires perdues. Dans cet article, nous proposons un modèle efficace de détection et de suivi conjoints nommé DEFT, abréviation de « Detection Embeddings for Tracking » (Embranchements de détection pour le suivi). Notre méthode repose sur un réseau de correspondance d’objets basé sur l’apparence, appris conjointement avec un réseau de détection d’objets sous-jacent. Un réseau LSTM est également intégré pour capturer les contraintes de mouvement. DEFT atteint une précision et une vitesse comparables aux meilleures méthodes sur les classements en ligne de suivi 2D, tout en offrant des avantages significatifs en robustesse lorsqu’il est appliqué à des données de suivi plus exigeantes. DEFT établit un nouveau record sur le défi de suivi 3D monocular nuScenes, dépassant de plus du double les performances de la méthode précédente en tête. Le code source est disponible publiquement.