DiffusionTrack : Modèle de diffusion de nuages de points pour le suivi d'objets visuels

Les traqueurs Siamese ou à transformer existants modélisent généralement le suivi d’objets visuels comme un problème de détection à une seule évaluation, c’est-à-dire localiser l’objet cible en une seule passe d’évaluation. Malgré leurs performances démontrées, ces traqueurs peuvent facilement dériver vers des distracteurs présentant une apparence similaire, en raison du schéma d’évaluation unique qui ne permet pas de correction auto-référentielle. Pour remédier à ce problème, nous reformulons le suivi visuel comme un processus de diffusion de débruitage basé sur un ensemble de points, et proposons un nouveau traqueur fondé sur un apprentissage génératif, nommé DiffusionTrack. Notre DiffusionTrack présente deux propriétés remarquables : 1) Il suit un nouveau paradigme de suivi « bruit vers cible », qui exploite plusieurs étapes de débruitage par diffusion pour localiser la cible de manière dynamique, frame par frame ; 2) Il modélise le processus de diffusion à l’aide d’une représentation par ensemble de points, capable de mieux gérer les variations d’apparence pour une localisation plus précise. Un bénéfice secondaire est que DiffusionTrack simplifie considérablement le post-traitement, par exemple en éliminant le besoin de schémas de pénalisation de fenêtre. Sans recourir à des améliorations supplémentaires, DiffusionTrack atteint des performances de pointe par rapport aux traqueurs les plus avancés, tout en fonctionnant en temps réel. Le code est disponible à l’adresse suivante : https://github.com/VISION-SJTU/DiffusionTrack.