il y a 7 jours

VLCap : Vision-Langage avec Apprentissage Contrastif pour la Résumé Cohérent de Paragraphes Vidéo

Kashu Yamazaki, Sang Truong, Khoa Vo, Michael Kidd, Chase Rainwater, Khoa Luu, Ngan Le

Résumé

Dans cet article, nous exploitons le processus de perception humaine, qui implique une interaction entre la vision et le langage, afin de générer une description cohérente sous forme de paragraphe pour des vidéos non tronquées. Nous proposons des caractéristiques vision-langage (VL) composées de deux modalités : (i) une modalité vision pour capturer le contenu visuel global de toute la scène, et (ii) une modalité langage pour extraire les descriptions des éléments scéniques, tant humains que non humains (par exemple, animaux, véhicules, etc.), ainsi que des éléments visuels et non visuels (par exemple, relations, activités, etc.). Par ailleurs, nous proposons d’entraîner notre modèle VLCap à l’aide d’une perte de apprentissage contrastif VL. Les expériences et les études d’ablation menées sur les jeux de données ActivityNet Captions et YouCookII montrent que notre approche VLCap surpasser les méthodes de l’état de l’art existantes sur les deux critères de performance : précision et diversité.