HyperAIHyperAI
il y a 7 jours

CLIP Rencontre la Génération de Légendes Vidéo : L'Apprentissage de Représentations Sensibles aux Concepts Compte Réellement

Bang Yang, Tong Zhang, Yuexian Zou
CLIP Rencontre la Génération de Légendes Vidéo : L'Apprentissage de Représentations Sensibles aux Concepts Compte Réellement
Résumé

Pour la génération de légendes vidéo, le paradigme « pré-entraînement et adaptation fine » est devenu une pratique courante : le pré-entraînement sur ImageNet (INP) est généralement utilisé pour encoder le contenu vidéo, suivi par une adaptation fine à partir de zéro d’un réseau orienté vers la tâche afin de produire des légendes. Ce papier examine d’abord l’impact du modèle récemment proposé CLIP (Contrastive Language-Image Pre-training) sur la génération de légendes vidéo. À travers une étude empirique comparative entre INP et CLIP, nous identifions les limites potentielles de l’INP et explorons les facteurs clés pour une génération précise des descriptions. Les résultats montrent que les modèles basés sur INP peinent à capturer correctement la sémantique des concepts et sont sensibles aux informations de fond non pertinentes. En revanche, les modèles basés sur CLIP améliorent significativement la qualité des légendes, mettant en évidence l’importance d’un apprentissage de représentations conscientes des concepts. À partir de ces observations, nous proposons une nouvelle méthode, Dual Concept Detection (DCD), visant à injecter des connaissances conceptuelles dans le modèle durant l’entraînement. DCD est une tâche auxiliaire qui contraint le modèle à apprendre la correspondance entre le contenu vidéo et les concepts, ainsi que les relations de co-occurrence entre ces concepts. Des expériences menées sur les jeux de données MSR-VTT et VATEX démontrent l’efficacité de DCD, tandis que les résultats de visualisation confirment la nécessité d’apprendre des représentations conscientes des concepts.

CLIP Rencontre la Génération de Légendes Vidéo : L'Apprentissage de Représentations Sensibles aux Concepts Compte Réellement | Articles de recherche récents | HyperAI