HyperAIHyperAI

Command Palette

Search for a command to run...

VLCap : Vision-Langage avec Apprentissage Contrastif pour la Résumé Cohérent de Paragraphes Vidéo

Kashu Yamazaki Sang Truong Khoa Vo Michael Kidd Chase Rainwater Khoa Luu Ngan Le

Résumé

Dans cet article, nous exploitons le processus de perception humaine, qui implique une interaction entre la vision et le langage, afin de générer une description cohérente sous forme de paragraphe pour des vidéos non tronquées. Nous proposons des caractéristiques vision-langage (VL) composées de deux modalités : (i) une modalité vision pour capturer le contenu visuel global de toute la scène, et (ii) une modalité langage pour extraire les descriptions des éléments scéniques, tant humains que non humains (par exemple, animaux, véhicules, etc.), ainsi que des éléments visuels et non visuels (par exemple, relations, activités, etc.). Par ailleurs, nous proposons d’entraîner notre modèle VLCap à l’aide d’une perte de apprentissage contrastif VL. Les expériences et les études d’ablation menées sur les jeux de données ActivityNet Captions et YouCookII montrent que notre approche VLCap surpasser les méthodes de l’état de l’art existantes sur les deux critères de performance : précision et diversité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp