SAMURAI : Adaptation du modèle Segment Anything pour le suivi visuel zéro-shot avec une mémoire sensible au mouvement

Le modèle Segment Anything 2 (SAM 2) a démontré des performances solides dans les tâches de segmentation d'objets, mais il rencontre des défis en matière de suivi d'objets visuels, notamment lorsqu'il s'agit de gérer des scènes surpeuplées avec des objets se déplaçant rapidement ou s'auto-occultant. De plus, l'approche à mémoire à fenêtre fixe du modèle original ne prend pas en compte la qualité des souvenirs sélectionnés pour conditionner les caractéristiques d'image du cadre suivant, ce qui entraîne une propagation d'erreurs dans les vidéos. Cet article présente SAMURAI, une adaptation améliorée de SAM 2 spécifiquement conçue pour le suivi d'objets visuels. En intégrant des indices de mouvement temporels avec le mécanisme de sélection de mémoire sensible au mouvement proposé, SAMURAI prédit efficacement le mouvement des objets et affine la sélection des masques, réalisant un suivi robuste et précis sans nécessiter de réentraînement ou d'affinage. SAMURAI fonctionne en temps réel et montre des performances solides en zero-shot sur diverses bases de données de référence, soulignant sa capacité à généraliser sans affinage. Dans les évaluations, SAMURAI réalise des améliorations significatives en termes de taux de succès et de précision par rapport aux traqueurs existants, avec un gain de 7,1 % en AUC sur LaSOT_{ext} et un gain de 3,5 % en AO sur GOT-10k. De plus, il obtient des résultats compétitifs comparables à ceux des méthodes entièrement supervisées sur LaSOT, mettant en évidence sa robustesse dans des scénarios complexes de suivi et son potentiel pour des applications dans le monde réel dans des environnements dynamiques. Le code source et les résultats sont disponibles à l'adresse suivante : https://github.com/yangchris11/samurai.