HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP-ViP : Adapter le modèle pré-entraîné image-texte à l’alignement de représentations vidéo-langage

Hongwei Xue Yuchong Sun Bei Liu Jianlong Fu Ruihua Song Houqiang Li Jiebo Luo

Résumé

Les modèles pré-entraînés image-texte, tels que CLIP, ont démontré une capacité remarquable à apprendre des représentations vision-langage à partir d’énormes quantités de données image-texte collectées sur le web. À la lumière des caractéristiques visuelles bien apprises, certaines recherches existantes ont transféré les représentations d’image vers le domaine vidéo, obtenant ainsi de bons résultats. Toutefois, la manière d’utiliser un modèle pré-entraîné image-langage (par exemple CLIP) pour un pré-entraînement vidéo-langage (post-pré-entraînement) reste encore peu explorée. Dans ce travail, nous examinons deux questions : 1) quels sont les facteurs entravant le post-pré-entraînement de CLIP pour améliorer davantage ses performances sur les tâches vidéo-langage ? et 2) comment atténuer l’impact de ces facteurs ? À travers une série d’expériences comparatives et d’analyses, nous constatons que l’échelle des données et l’écart de domaine entre les sources linguistiques exercent une influence significative. Inspirés par ces observations, nous proposons une méthode d’apprentissage cross-modale omnifonctionnelle, intégrant un mécanisme de proxy vidéo basé sur CLIP, nommée CLIP-ViP. Les résultats étendus montrent que notre approche améliore considérablement les performances de CLIP sur la tâche de recherche vidéo-texte. De plus, notre modèle atteint des résultats de l’état de l’art (SOTA) sur plusieurs jeux de données, notamment MSR-VTT, DiDeMo, LSMDC et ActivityNet. Nous mettrons à disposition notre code ainsi que les modèles pré-entraînés CLIP-ViP à l’adresse suivante : https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CLIP-ViP : Adapter le modèle pré-entraîné image-texte à l’alignement de représentations vidéo-langage | Articles | HyperAI