UniVS : Segmentation vidéo unifiée et universelle avec des prompts comme requêtes

Malgré les récentes avancées dans la segmentation d'image unifiée (IS), le développement d'un modèle de segmentation vidéo unifié (VS) reste un défi. Cela est principalement dû au fait que les tâches de VS génériques spécifiques à une catégorie doivent détecter tous les objets et les suivre à travers des images consécutives, tandis que les tâches de VS guidées par des instructions nécessitent de réidentifier la cible avec des indices visuels ou textuels tout au long de la vidéo, ce qui rend difficile la gestion de ces différentes tâches avec une même architecture. Nous tentons de résoudre ces problèmes et présentons une nouvelle architecture unifiée de VS, nommée UniVS, en utilisant des instructions comme requêtes. UniVS moyenne les caractéristiques du prompt cible des frames précédentes pour servir de requête initiale afin de décoder explicitement les masques, et introduit une couche d'attention croisée spécifique à la cible dans le décodeur de masque pour intégrer les caractéristiques du prompt dans le bassin mémoire. En prenant les masques prédits des entités des frames précédentes comme leurs prompts visuels, UniVS transforme différentes tâches de VS en segmentation ciblée guidée par des prompts, éliminant ainsi le processus heuristique d'appariement inter-frames. Notre cadre non seulement unifie les différentes tâches de VS mais assure également une formation et un test universels, garantissant une performance robuste dans divers scénarios. UniVS montre un équilibre remarquable entre performance et universalité sur 10 benchmarks exigeants en VS, couvrant les tâches de segmentation d'instances vidéo, sémantique, panoramique, d'objets et par référence. Le code peut être trouvé à l'adresse \url{https://github.com/MinghanLi/UniVS}.