Apprentissage de similarité quasi-dense pour le suivi multiple d'objets

L'apprentissage de similarité a été reconnu comme une étape cruciale pour le suivi d'objets. Cependant, les méthodes actuelles de suivi multiple d'objets n'utilisent que des correspondances de vérité terrain éparses comme objectif d'entraînement, en ignorant la majorité des régions informatives sur les images. Dans cet article, nous présentons l'Apprentissage de Similarité Quasi-Dense, qui échantillonne de manière dense des centaines de propositions de régions sur un couple d'images pour l'apprentissage par contraste. Nous pouvons directement combiner cet apprentissage de similarité avec les méthodes de détection existantes pour construire le Suivi Quasi-Dense (QDTrack) sans recourir à la régression du déplacement ou aux a priori de mouvement. Nous constatons également que l'espace des caractéristiques distinctives résultant admet une recherche simple du plus proche voisin lors de l'inférence. Malgré sa simplicité, QDTrack surpassе tous les méthodes existantes sur les benchmarks de suivi MOT, BDD100K, Waymo et TAO. Il atteint un MOTA (Multiple Object Tracking Accuracy) de 68,7 à 20,3 FPS sur MOT17 sans utiliser de données d'entraînement externes. Comparé aux méthodes dotées de détecteurs similaires, il améliore presque 10 points le MOTA et réduit considérablement le nombre de changements d'ID sur les ensembles de données BDD100K et Waymo. Notre code et nos modèles entraînés sont disponibles à l'adresse http://vis.xyz/pub/qdtrack.