il y a 6 mois

Résumé

Les cadres récents de préentraînement vidéo et langage manquent de capacité à générer des phrases. Nous proposons MV-GPT (Multimodal Video Generative Pretraining), un nouveau cadre de préentraînement permettant d'apprendre à partir de vidéos non étiquetées, et efficacement utilisable pour des tâches génératives telles que la génération de légendes vidéo multimodales. Contrairement aux cadres récents de préentraînement vidéo-langage, notre approche entraîne de manière conjointe un encodeur vidéo multimodal et un décodeur de phrases. Pour pallier l'absence de légendes dans les vidéos non étiquetées, nous exploitons l'énoncé futur comme source de texte supplémentaire et proposons une objectif de génération bidirectionnelle : nous générons les énoncés futurs à partir du contexte multimodal actuel, tout comme nous reconstruisons l'énoncé actuel à partir des observations futures. Grâce à cet objectif, nous entraînons un modèle encodeur-décodeur de manière end-to-end afin de produire une légende directement à partir de pixels bruts et de transcriptions vocales. Notre modèle atteint des performances de pointe sur quatre benchmarks standards pour la génération de légendes vidéo multimodales, ainsi que pour d'autres tâches de compréhension vidéo telles que la question-réponse vidéo (VideoQA), la recherche vidéo et la classification d'actions.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Video Captioning

Multimodal

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Video Captioning

Multimodal

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Pré-entraînement génératif bout-en-bout pour la génération de légendes vidéo multimodales

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Pré-entraînement génératif bout-en-bout pour la génération de légendes vidéo multimodales

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Pré-entraînement génératif bout-en-bout pour la génération de légendes vidéo multimodales

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters