SAMWISE : Infuser la sagesse dans SAM2 pour la segmentation vidéo guidée par le texte

La segmentation d'objets par référence vidéo (RVOS) s'appuie sur des expressions en langage naturel pour segmenter un objet dans une séquence vidéo. Les méthodes existantes limitent la raisonnement soit à des séquences courtes indépendantes, perdant ainsi le contexte global, soit traitent l'intégralité de la vidéo hors ligne, ce qui nuit à leur utilisation en mode diffusion continue. Dans cette étude, nous visons à dépasser ces limitations et à concevoir une méthode RVOS capable de fonctionner efficacement dans des scénarios similaires à la diffusion en continu tout en conservant les informations contextuelles des images précédentes. Nous nous appuyons sur le modèle Segment-Anything 2 (SAM2), qui offre des capacités de segmentation et de suivi robustes et est naturellement adapté au traitement en continu. Nous rendons SAM2 plus intelligent en lui dotant d'une compréhension du langage naturel et d'un modèle temporel explicite au stade d'extraction des caractéristiques, sans ajustement fin de ses poids et sans externalisation de l'interaction modale à des modèles externes. À cet effet, nous introduisons un nouveau module adaptateur qui intègre les informations temporelles et les indices multimodaux dans le processus d'extraction des caractéristiques. Nous mettons également en évidence le phénomène du biais de suivi dans SAM2 et proposons un module apprenable pour ajuster son focus de suivi lorsque les caractéristiques de l'image actuelle suggèrent un nouvel objet plus conforme au légende. Notre méthode proposée, SAMWISE, atteint l'état de l'art sur divers benchmarks avec un surcoût négligeable de moins de 5 millions de paramètres. Le code est disponible sur https://github.com/ClaudiaCuttano/SAMWISE .