Segmenter chaque objet de référence dans les espaces spatial et temporel

Les tâches de segmentation d'objets basées sur une référence, à savoir la segmentation d'images par référence (RIS), la segmentation d'objets vidéo par référence (RVOS) et la segmentation d'objets vidéo (VOS), visent à segmenter un objet spécifique en utilisant soit une description linguistique, soit des masques annotés comme référence. Malgré les progrès significatifs réalisés dans chacun de ces domaines, les méthodes actuelles sont conçues et développées de manière spécifique à chaque tâche, suivant des directions différentes, ce qui entrave l'activation de capacités multi-tâches pour ces tâches. Dans ce travail, nous mettons fin à la situation actuelle fragmentée en proposant UniRef, une architecture unifiée permettant de traiter les trois tâches de segmentation d'objets basées sur une référence avec une seule architecture. Au cœur de notre approche réside une fusion multi-voies permettant de gérer efficacement chaque tâche en fonction de sa référence spécifique. Une architecture Transformer unifiée est ensuite adoptée pour réaliser la segmentation au niveau des instances. Grâce à cette conception unifiée, UniRef peut être entraînée conjointement sur une large gamme de benchmarks et effectuer de manière flexible plusieurs tâches en temps réel en spécifiant simplement les références correspondantes. Nous évaluons le réseau entraîné conjointement sur divers benchmarks. Les résultats expérimentaux étendus montrent que notre proposition UniRef atteint des performances de pointe sur les tâches RIS et RVOS, et obtient des résultats compétitifs sur VOS avec un seul réseau.