Une mémoire attentive aux distracteurs pour le suivi d'objets visuels avec SAM2

Les traceurs basés sur la mémoire sont des méthodes de segmentation d'objets vidéo qui construisent le modèle cible en concaténant les trames récemment suivies dans un tampon de mémoire et localisent la cible en portant une attention à l'image actuelle par rapport aux trames stockées. Bien qu'ils aient déjà obtenu des performances excellentes sur de nombreux benchmarks, c'est la récente publication de SAM2 qui a mis les traceurs basés sur la mémoire au centre de l'attention de la communauté de suivi visuel d'objets. Cependant, les traceurs modernes continuent de rencontrer des difficultés en présence de distracteurs. Nous soutenons qu'un modèle de mémoire plus sophistiqué est nécessaire et proposons un nouveau modèle de mémoire prenant en compte les distracteurs pour SAM2 ainsi qu'une stratégie de mise à jour basée sur l'introspection qui aborde conjointement la précision de la segmentation et la robustesse du suivi. Le traceur résultant est désigné sous le nom de SAM2.1++. Nous proposons également un nouveau jeu de données DiDi distillé à partir des distracteurs pour mieux étudier le problème des distracteurs. SAM2.1++ surpasses SAM2.1 et les extensions liées à la mémoire SAM sur sept benchmarks et établit un solide nouvel état de l'art sur six d'entre eux.