HyperAIHyperAI

Command Palette

Search for a command to run...

Vid2Seq : Pré-entraînement à grande échelle d'un modèle linguistique visuel pour la captioning vidéo dense

Antoine Yang Arsha Nagrani Paul Hongsuck Seo Antoine Miech Jordi Pont-Tuset Ivan Laptev Josef Sivic Cordelia Schmid

Résumé

Dans ce travail, nous introduisons Vid2Seq, un modèle de captioning d’événements denses à plusieurs modalités et à une seule étape, préentraîné sur des vidéos narrées facilement disponibles à grande échelle. L’architecture Vid2Seq enrichit un modèle de langage avec des jetons temporels spéciaux, lui permettant de prédire de manière fluide à la fois les frontières des événements et leurs descriptions textuelles dans une même séquence de sortie. Un tel modèle unifié nécessite des données d’entraînement à grande échelle, qui ne sont pas disponibles dans les jeux de données annotés actuels. Nous montrons qu’il est possible d’utiliser des vidéos narrées non étiquetées pour le captioning vidéo dense, en reformulant les frontières des phrases du discours transcrit comme des frontières d’événements pseudo-étiquetées, et en utilisant les phrases transcriventes comme des descriptions d’événements pseudo-étiquetées. Le modèle Vid2Seq préentraîné sur le jeu de données YT-Temporal-1B améliore l’état de l’art sur diverses benchmarks de captioning vidéo dense, notamment YouCook2, ViTT et ActivityNet Captions. Vid2Seq se généralise également bien aux tâches de captioning par paragraphe vidéo et de captioning de segments vidéo, ainsi qu’aux scénarios à peu de données. Notre code est disponible publiquement à l’adresse suivante : https://antoyang.github.io/vid2seq.html.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp