HyperAIHyperAI

Command Palette

Search for a command to run...

UniVL : un modèle pré-entraîné vidéo-langage unifié pour la compréhension et la génération multimodales

Huaishao Luo Lei Ji Botian Shi Haoyang Huang Nan Duan Tianrui Li Jason Li Taroon Bharti Ming Zhou

Résumé

Grâce aux récents succès des techniques de pré-entraînement en traitement du langage naturel (NLP) et en tâches vidéo-langage, des travaux récents sur le pré-entraînement vidéo-langage émergent progressivement afin d’améliorer les tâches ultérieures liées à la correspondance vidéo-texte. Toutefois, la plupart des modèles multimodaux existants sont pré-entraînés pour des tâches de compréhension, ce qui engendre un écart entre le pré-entraînement et le fine-tuning pour les tâches de génération. Ce papier propose UniVL : un modèle de pré-entraînement unifié pour la vidéo et le langage, conçu pour supporter à la fois la compréhension et la génération multimodales. Il se compose de quatre composants : deux encodeurs unimodaux, un encodeur croisé et un décodeur basé sur l’architecture Transformer. Cinq objectifs sont spécifiquement conçus pour entraîner chaque composant : jointe vidéo-texte, modèle de langage masqué conditionnel (CMLM), modèle de trames masquées conditionnel (CMFM), alignement vidéo-texte et reconstruction linguistique. Nous proposons également deux stratégies de pré-entraînement : le pré-entraînement par étapes (StagedP) et la représentation améliorée de la vidéo (EnhancedV), afin d’optimiser le processus d’entraînement de UniVL. Le pré-entraînement est effectué sur un grand jeu de données d’instructions vidéo, HowTo100M. Les résultats expérimentaux démontrent que UniVL parvient à apprendre des représentations puissantes vidéo-texte et atteint des performances de pointe sur cinq tâches downstream.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
UniVL : un modèle pré-entraîné vidéo-langage unifié pour la compréhension et la génération multimodales | Articles | HyperAI