UniRef++ : Segmenter chaque objet de référence dans les espaces spatiaux et temporels

Les tâches de segmentation d'objets basées sur une référence, à savoir la segmentation d'images par référence (RIS), la segmentation d'images à faible exemplaire (FSS), la segmentation d'objets vidéo par référence (RVOS) et la segmentation d'objets vidéo (VOS), visent à segmenter un objet spécifique en utilisant soit des descriptions linguistiques, soit des masques annotés comme références. Malgré les progrès significatifs réalisés dans chacun de ces domaines, les méthodes actuelles sont conçues de manière spécifique à chaque tâche et développées selon des directions différentes, ce qui entrave l'activation de capacités multi-tâches pour ces tâches. Dans ce travail, nous mettons fin à cette situation fragmentée en proposant UniRef++, un cadre unifié permettant de traiter les quatre tâches de segmentation d'objets basées sur une référence à l’aide d’une seule architecture. Au cœur de notre approche se trouve le module UniFusion, conçu pour réaliser une fusion multi-voies afin de gérer efficacement les différentes tâches en fonction de leurs références spécifiques. Un architecture Transformer unifiée est ensuite adoptée pour atteindre une segmentation au niveau des instances. Grâce à cette conception unifiée, UniRef++ peut être entraîné conjointement sur une large gamme de benchmarks et exécuter de manière flexible plusieurs tâches en temps réel en spécifiant les références correspondantes. Nous évaluons nos modèles unifiés sur divers benchmarks. Les résultats expérimentaux étendus montrent que notre proposition UniRef++ atteint des performances de pointe sur RIS et RVOS, tout en obtenant des résultats compétitifs sur FSS et VOS grâce à un réseau partageant les paramètres. En outre, nous démontrons que le module UniFusion peut être facilement intégré dans le modèle fondamental avancé SAM, permettant d’obtenir de bons résultats via un fine-tuning efficace en termes de paramètres. Le code et les modèles sont disponibles à l’adresse suivante : \url{https://github.com/FoundationVision/UniRef}.