HyperAIHyperAI
il y a 8 jours

IcoCap : Amélioration de la génération de légendes vidéo par composition d’images

{Yi Yang, Xiaohan Wang, Linchao Zhu, Yuanzhi Liang}
Résumé

La génération de légendes pour vidéos est une tâche plus difficile que celle pour images, principalement en raison des différences de densité sémantique. Les données vidéo contiennent souvent des éléments visuels redondants, ce qui rend difficile pour les modèles de légendes généraliser efficacement face à une grande variété de contenus et les expose à des perturbations dues à des éléments non pertinents. De plus, cette redondance n’est pas suffisamment réduite pour correspondre précisément aux significations visuelles présentes dans les légendes de référence (ground truth), ce qui accentue encore la difficulté de la tâche. La recherche actuelle en génération de légendes vidéo se concentre principalement sur la conception des modèles (captioners), en négligeant l’impact de la densité du contenu sur leur performance. Étant donné les différences fondamentales entre vidéos et images, une autre voie prometteuse pour améliorer la génération de légendes vidéo consiste à exploiter des échantillons d’images concis et faciles à apprendre afin de diversifier davantage les échantillons vidéo. Cette modulation de la densité du contenu oblige le modèle à mieux apprendre en s’affranchissant de la redondance et de l’ambiguïté. Dans ce travail, nous proposons une nouvelle approche, nommée Image-Compounded learning for video Captioners (IcoCap), visant à améliorer l’apprentissage des significations sémantiques complexes dans les vidéos. IcoCap se compose de deux composants : la Stratégie de composition Image-Vidéo (ICS) et la Génération de légendes guidée par la sémantique visuelle (VGC). L’ICS intègre des significations sémantiques d’images facilement apprenables dans les significations vidéo, enrichissant ainsi la diversité du contenu vidéo et incitant le réseau à généraliser les contenus à partir d’échantillons plus variés. En outre, en apprenant à partir d’échantillons enrichis par des éléments d’images, le captioner est contraint d’extraire plus efficacement les indices vidéo pertinents, malgré la présence de sémantiques d’images simples. Cela aide le modèle à mieux se concentrer sur les informations pertinentes tout en filtrant les éléments superflus. Ensuite, le VGC guide le réseau dans l’apprentissage flexible des légendes de référence à partir des échantillons composés, contribuant ainsi à réduire le désalignement entre les légendes de référence et les significations ambigües présentes dans les vidéos. Nos résultats expérimentaux démontrent l’efficacité de IcoCap dans l’amélioration de l’apprentissage des captioners vidéo. Appliquée aux jeux de données largement utilisés MSVD, MSR-VTT et VATEX, notre méthode atteint des performances compétitives ou supérieures à celles des méthodes de pointe, illustrant ainsi sa capacité à traiter efficacement les données vidéo redondantes et ambigües.