HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP Rencontre la Génération de Légendes Vidéo : L'Apprentissage de Représentations Sensibles aux Concepts Compte Réellement

Bang Yang Tong Zhang Yuexian Zou

Résumé

Pour la génération de légendes vidéo, le paradigme « pré-entraînement et adaptation fine » est devenu une pratique courante : le pré-entraînement sur ImageNet (INP) est généralement utilisé pour encoder le contenu vidéo, suivi par une adaptation fine à partir de zéro d’un réseau orienté vers la tâche afin de produire des légendes. Ce papier examine d’abord l’impact du modèle récemment proposé CLIP (Contrastive Language-Image Pre-training) sur la génération de légendes vidéo. À travers une étude empirique comparative entre INP et CLIP, nous identifions les limites potentielles de l’INP et explorons les facteurs clés pour une génération précise des descriptions. Les résultats montrent que les modèles basés sur INP peinent à capturer correctement la sémantique des concepts et sont sensibles aux informations de fond non pertinentes. En revanche, les modèles basés sur CLIP améliorent significativement la qualité des légendes, mettant en évidence l’importance d’un apprentissage de représentations conscientes des concepts. À partir de ces observations, nous proposons une nouvelle méthode, Dual Concept Detection (DCD), visant à injecter des connaissances conceptuelles dans le modèle durant l’entraînement. DCD est une tâche auxiliaire qui contraint le modèle à apprendre la correspondance entre le contenu vidéo et les concepts, ainsi que les relations de co-occurrence entre ces concepts. Des expériences menées sur les jeux de données MSR-VTT et VATEX démontrent l’efficacité de DCD, tandis que les résultats de visualisation confirment la nécessité d’apprendre des représentations conscientes des concepts.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp