HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentations multi-niveaux avec alignement sémantique pour la segmentation d'objets vidéo par référence

Jianbing Shen Ling Shao Xingping Dong Dongming Wu

Résumé

La segmentation d'objets vidéo guidée par le langage (RVOS) est une tâche exigeante de localisation vidéo guidée par le langage, qui nécessite une compréhension approfondie des informations sémantiques tant du contenu vidéo que des requêtes linguistiques pour prédire les objets. Toutefois, les méthodes existantes reposent sur une fusion multimodale à une granularité spatiale par trame. Cette limitation de la représentation visuelle est susceptible de provoquer un désalignement entre vision et langage, entraînant ainsi des résultats de segmentation médiocres. Pour remédier à ce problème, nous proposons une nouvelle approche d'apprentissage de représentations multi-niveaux, qui exploite la structure intrinsèque du contenu vidéo afin de produire un ensemble de vecteurs visuels discriminants, permettant ainsi un alignement sémantique vision-langage plus efficace. Plus précisément, nous intégrons différentes informations visuelles selon plusieurs granularités : des informations temporelles longues à l’échelle de la vidéo, des sémantiques spatiales intra-trame à l’échelle de la trame, ainsi qu’un prior de caractéristiques orientées vers les objets amélioré à l’échelle de l’objet. Grâce à cette représentation visuelle multi-niveaux puissante et à une alignement dynamique soigneusement conçu, notre modèle parvient à générer une représentation robuste, propice à une segmentation précise des objets vidéo. Des expériences étendues sur les jeux de données Refer-DAVIS_17 et Refer-YouTube-VOS démontrent que notre modèle atteint des performances supérieures tant en précision de segmentation qu’en vitesse d’inférence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp