HyperAIHyperAI
il y a 3 mois

SMILEtrack : Apprentissage de similarité SiMIlaire pour un suivi multiple d'objets conscient de l'occlusion

Yu-Hsiang Wang, Jun-Wei Hsieh, Ping-Yang Chen, Ming-Ching Chang, Hung Hin So, Xin Li
SMILEtrack : Apprentissage de similarité SiMIlaire pour un suivi multiple d'objets conscient de l'occlusion
Résumé

Malgré les progrès récents réalisés dans le suivi d’objets multiples (Multiple Object Tracking, MOT), des défis persistants tels que les occlusions, la présence d’objets similaires ou la complexité des scènes restent des problèmes non résolus. Par ailleurs, une étude systématique du compromis coût-performances pour le paradigme populaire du suivi par détection fait encore défaut. Ce papier présente SMILEtrack, un nouveau suiveur d’objets innovant, capable d’aborder efficacement ces difficultés en intégrant un détecteur d’objets performant avec un module d’apprentissage de similarité basé sur un réseau Siamese (Similarity Learning Module, SLM). Les contributions techniques de SMILEtrack sont doubles. Premièrement, nous proposons un SLM qui calcule la similarité d’apparence entre deux objets, surmontant ainsi les limites des descripteurs de caractéristiques présents dans les modèles de détection et d’embedding séparés (Separate Detection and Embedding, SDE). Le SLM intègre un bloc d’attention auto-locale par patch (Patch Self-Attention, PSA), inspiré des réseaux vision Transformer, qui génère des caractéristiques fiables permettant un alignement de similarité précis. Deuxièmement, nous avons conçu un module de cascade d’appariement de similarité (Similarity Matching Cascade, SMC) doté d’une nouvelle fonction GATE, assurant un appariement robuste des objets à travers les cadres vidéo consécutifs, ce qui améliore davantage les performances du suivi. Ensemble, ces innovations permettent à SMILEtrack d’atteindre un meilleur compromis entre coût (par exemple, vitesse d’exécution) et performance (par exemple, précision du suivi) sur plusieurs benchmarks de pointe, y compris la méthode populaire BYTETrack. SMILEtrack dépasse BYTETrack de 0,4 à 0,8 points de MOTA et de 2,1 à 2,2 points de HOTA sur les jeux de données MOT17 et MOT20. Le code source est disponible à l’adresse suivante : https://github.com/pingyang1117/SMILEtrack_Official