Vid2Seq : Pré-entraînement à grande échelle d'un modèle linguistique visuel pour la captioning vidéo dense

Dans ce travail, nous introduisons Vid2Seq, un modèle de captioning d’événements denses à plusieurs modalités et à une seule étape, préentraîné sur des vidéos narrées facilement disponibles à grande échelle. L’architecture Vid2Seq enrichit un modèle de langage avec des jetons temporels spéciaux, lui permettant de prédire de manière fluide à la fois les frontières des événements et leurs descriptions textuelles dans une même séquence de sortie. Un tel modèle unifié nécessite des données d’entraînement à grande échelle, qui ne sont pas disponibles dans les jeux de données annotés actuels. Nous montrons qu’il est possible d’utiliser des vidéos narrées non étiquetées pour le captioning vidéo dense, en reformulant les frontières des phrases du discours transcrit comme des frontières d’événements pseudo-étiquetées, et en utilisant les phrases transcriventes comme des descriptions d’événements pseudo-étiquetées. Le modèle Vid2Seq préentraîné sur le jeu de données YT-Temporal-1B améliore l’état de l’art sur diverses benchmarks de captioning vidéo dense, notamment YouCook2, ViTT et ActivityNet Captions. Vid2Seq se généralise également bien aux tâches de captioning par paragraphe vidéo et de captioning de segments vidéo, ainsi qu’aux scénarios à peu de données. Notre code est disponible publiquement à l’adresse suivante : https://antoyang.github.io/vid2seq.html.