Apprentissage de représentations multi-niveaux avec alignement sémantique pour la segmentation d'objets vidéo par référence

La segmentation d'objets vidéo guidée par le langage (RVOS) est une tâche exigeante de localisation vidéo guidée par le langage, qui nécessite une compréhension approfondie des informations sémantiques tant du contenu vidéo que des requêtes linguistiques pour prédire les objets. Toutefois, les méthodes existantes reposent sur une fusion multimodale à une granularité spatiale par trame. Cette limitation de la représentation visuelle est susceptible de provoquer un désalignement entre vision et langage, entraînant ainsi des résultats de segmentation médiocres. Pour remédier à ce problème, nous proposons une nouvelle approche d'apprentissage de représentations multi-niveaux, qui exploite la structure intrinsèque du contenu vidéo afin de produire un ensemble de vecteurs visuels discriminants, permettant ainsi un alignement sémantique vision-langage plus efficace. Plus précisément, nous intégrons différentes informations visuelles selon plusieurs granularités : des informations temporelles longues à l’échelle de la vidéo, des sémantiques spatiales intra-trame à l’échelle de la trame, ainsi qu’un prior de caractéristiques orientées vers les objets amélioré à l’échelle de l’objet. Grâce à cette représentation visuelle multi-niveaux puissante et à une alignement dynamique soigneusement conçu, notre modèle parvient à générer une représentation robuste, propice à une segmentation précise des objets vidéo. Des expériences étendues sur les jeux de données Refer-DAVIS_17 et Refer-YouTube-VOS démontrent que notre modèle atteint des performances supérieures tant en précision de segmentation qu’en vitesse d’inférence.