HyperAIHyperAI

Command Palette

Search for a command to run...

Dites-moi ce qui s’est passé : Unification de la complétion vidéo guidée par le texte via la génération multimodale de vidéos masquées

Tsu-Jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell

Résumé

Générer une vidéo à partir des premières images statiques est un défi, car cela suppose de prédire des images futures cohérentes dans le temps. Outre la prédiction vidéo, la capacité à revenir en arrière à partir de la dernière image ou à remplir les intervalles entre les images initiale et finale est également cruciale, mais ces aspects ont rarement été explorés dans le cadre de la complétion vidéo. Étant donné qu’un petit nombre d’images peut conduire à plusieurs résultats possibles, un système capable de suivre des instructions en langage naturel pour effectuer la complétion vidéo pourrait considérablement améliorer la maîtrise du processus. Inspirés par cette idée, nous introduisons une nouvelle tâche, appelée complétion vidéo guidée par le texte (TVC), qui consiste à générer une vidéo à partir d’images partielles, sous la direction d’une instruction textuelle. Nous proposons ensuite un modèle, nommé Génération vidéo masquée multimodale (MMVG), pour traiter cette tâche TVC. Lors de l’entraînement, MMVG discrétise les images vidéo en tokens visuels, puis masque la majeure partie d’entre elles afin de permettre la complétion vidéo à partir de n’importe quel instant. En phase d’inférence, un seul modèle MMVG peut traiter les trois cas de la TVC — prédiction vidéo, retour arrière (rewind) et remplissage (infilling) — en appliquant des conditions de masquage adaptées. Nous évaluons MMVG dans divers scénarios vidéo, incluant des vidéos égocentriques, des animations et des jeux vidéo. Les résultats expérimentaux étendus montrent que MMVG est efficace pour générer des apparitions visuelles de haute qualité, guidées par le texte, dans le cadre de la TVC.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Dites-moi ce qui s’est passé : Unification de la complétion vidéo guidée par le texte via la génération multimodale de vidéos masquées | Articles | HyperAI