HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentations vision-linguistique ancrées pour une compréhension polyvalente dans des vidéos non coupées

Teng Wang Jinrui Zhang Feng Zheng Wenhao Jiang Ran Cheng Ping Luo

Résumé

L'apprentissage conjoint de la vidéo et du langage a suscité une attention croissante ces dernières années. Cependant, les travaux existants se concentrent principalement sur des clips vidéo tronqués (événements) simples ou multiples, ce qui rend nécessaire la délimitation d'événements annotée par des humains lors de l'inférence. Pour s'affranchir de cette contrainte, nous proposons un cadre d'apprentissage visuel-linguistique ancré pour des vidéos non tronquées, capable de détecter automatiquement des événements pertinents et d'extraire efficacement les alignements entre des descriptions en plusieurs phrases et les segments d'événements correspondants. Au lieu d'alignements visuel-linguistique à un niveau grossier, nous présentons deux tâches prétextes duales pour favoriser des alignements à un niveau segment plus fin, à savoir le liage texte-événement (TEG) et la génération événement-texte (ETG). Le TEG apprend à ancrer de manière adaptative les propositions d'événements possibles à partir d'un ensemble de phrases en estimant la distance intermodale dans un espace sémantique conjoint. Parallèlement, l'ETG vise à reconstruire (générer) les textes correspondants à partir des propositions d'événements, incitant la représentation des événements à conserver des informations sémantiques pertinentes. Pour encourager une attribution précise des étiquettes entre l'ensemble d'événements et l'ensemble de textes, nous proposons un nouveau coût sémantique conscient afin de réduire les résultats de correspondance sous-optimaux dus aux annotations de frontières ambiguës. Notre cadre est facilement extensible aux tâches couvrant la compréhension linguistique ancrée visuellement et la génération de langage. Nous obtenons des performances densément légendées vidéo parmi les meilleures sur ActivityNet Captions, YouCook2 et YouMakeup, ainsi que des performances compétitives sur plusieurs autres tâches de génération et compréhension linguistiques. Notre méthode a également remporté le premier prix dans les tâches MTVG et MDVC du PIC 4th Challenge. Notre code est disponible au public sur https://github.com/zjr2000/GVL.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp