HyperAIHyperAI
il y a 7 jours

Dites-moi ce qui s’est passé : Unification de la complétion vidéo guidée par le texte via la génération multimodale de vidéos masquées

Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell
Dites-moi ce qui s’est passé : Unification de la complétion vidéo guidée par le texte via la génération multimodale de vidéos masquées
Résumé

Générer une vidéo à partir des premières images statiques est un défi, car cela suppose de prédire des images futures cohérentes dans le temps. Outre la prédiction vidéo, la capacité à revenir en arrière à partir de la dernière image ou à remplir les intervalles entre les images initiale et finale est également cruciale, mais ces aspects ont rarement été explorés dans le cadre de la complétion vidéo. Étant donné qu’un petit nombre d’images peut conduire à plusieurs résultats possibles, un système capable de suivre des instructions en langage naturel pour effectuer la complétion vidéo pourrait considérablement améliorer la maîtrise du processus. Inspirés par cette idée, nous introduisons une nouvelle tâche, appelée complétion vidéo guidée par le texte (TVC), qui consiste à générer une vidéo à partir d’images partielles, sous la direction d’une instruction textuelle. Nous proposons ensuite un modèle, nommé Génération vidéo masquée multimodale (MMVG), pour traiter cette tâche TVC. Lors de l’entraînement, MMVG discrétise les images vidéo en tokens visuels, puis masque la majeure partie d’entre elles afin de permettre la complétion vidéo à partir de n’importe quel instant. En phase d’inférence, un seul modèle MMVG peut traiter les trois cas de la TVC — prédiction vidéo, retour arrière (rewind) et remplissage (infilling) — en appliquant des conditions de masquage adaptées. Nous évaluons MMVG dans divers scénarios vidéo, incluant des vidéos égocentriques, des animations et des jeux vidéo. Les résultats expérimentaux étendus montrent que MMVG est efficace pour générer des apparitions visuelles de haute qualité, guidées par le texte, dans le cadre de la TVC.

Dites-moi ce qui s’est passé : Unification de la complétion vidéo guidée par le texte via la génération multimodale de vidéos masquées | Articles de recherche récents | HyperAI