Apprentissage de représentations vision-linguistique ancrées pour une compréhension polyvalente dans des vidéos non coupées

L'apprentissage conjoint de la vidéo et du langage a suscité une attention croissante ces dernières années. Cependant, les travaux existants se concentrent principalement sur des clips vidéo tronqués (événements) simples ou multiples, ce qui rend nécessaire la délimitation d'événements annotée par des humains lors de l'inférence. Pour s'affranchir de cette contrainte, nous proposons un cadre d'apprentissage visuel-linguistique ancré pour des vidéos non tronquées, capable de détecter automatiquement des événements pertinents et d'extraire efficacement les alignements entre des descriptions en plusieurs phrases et les segments d'événements correspondants. Au lieu d'alignements visuel-linguistique à un niveau grossier, nous présentons deux tâches prétextes duales pour favoriser des alignements à un niveau segment plus fin, à savoir le liage texte-événement (TEG) et la génération événement-texte (ETG). Le TEG apprend à ancrer de manière adaptative les propositions d'événements possibles à partir d'un ensemble de phrases en estimant la distance intermodale dans un espace sémantique conjoint. Parallèlement, l'ETG vise à reconstruire (générer) les textes correspondants à partir des propositions d'événements, incitant la représentation des événements à conserver des informations sémantiques pertinentes. Pour encourager une attribution précise des étiquettes entre l'ensemble d'événements et l'ensemble de textes, nous proposons un nouveau coût sémantique conscient afin de réduire les résultats de correspondance sous-optimaux dus aux annotations de frontières ambiguës. Notre cadre est facilement extensible aux tâches couvrant la compréhension linguistique ancrée visuellement et la génération de langage. Nous obtenons des performances densément légendées vidéo parmi les meilleures sur ActivityNet Captions, YouCook2 et YouMakeup, ainsi que des performances compétitives sur plusieurs autres tâches de génération et compréhension linguistiques. Notre méthode a également remporté le premier prix dans les tâches MTVG et MDVC du PIC 4th Challenge. Notre code est disponible au public sur https://github.com/zjr2000/GVL.