il y a 2 mois

ReferDINO : Segmentation d'objets vidéo par référence avec des fondements de localisation visuelle

Tianming Liang; Kun-Yu Lin; Chaolei Tan; Jianguo Zhang; Wei-Shi Zheng; Jian-Fang Hu

Résumé

La segmentation d'objets par référence vidéo (RVOS) vise à segmenter les objets cibles tout au long d'une vidéo en se basant sur une description textuelle. Malgré des progrès notables ces dernières années, les modèles de RVOS actuels peinent encore à gérer des descriptions d'objets complexes en raison de leur compréhension limitée du langage et de la vidéo. Pour remédier à cette limitation, nous présentons ReferDINO, un modèle de RVOS intégré bout-à-bout qui hérite d'une forte compréhension vision-langage des modèles préentraînés de localisation visuelle et qui est doté d'une compréhension temporelle efficace et de capacités de segmentation d'objets. Dans ReferDINO, nous contribuons trois innovations techniques pour adapter efficacement les modèles fondamentaux à la RVOS : 1) un améliorateur temporel cohérent avec l'objet qui exploite les représentations préentraînées texte-objet pour renforcer la compréhension temporelle et la cohérence des objets ; 2) un décodeur de masques déformables guidé par la localisation qui intègre les conditions textuelles et de localisation pour générer des masques d'objets précis ; 3) une stratégie de réduction des requêtes basée sur la confiance qui améliore considérablement l'efficacité du décodage des objets sans compromettre les performances. Nous menons des expériences approfondies sur cinq benchmarks publics de RVOS pour démontrer que notre ReferDINO proposé surpasse significativement les méthodes de pointe actuelles. Page du projet : \url{https://isee-laboratory.github.io/ReferDINO}