HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 8 jours

Video-As-Prompt : Contrôle sémantique unifié pour la génération de vidéos

Yuxuan Bian Xin Chen Zenan Li Tiancheng Zhi Shen Sang Linjie Luo Qiang Xu

Video-As-Prompt : Contrôle sémantique unifié pour la génération de vidéos

Résumé

Le contrôle sémantique unifié et généralisable dans la génération vidéo demeure un défi majeur non résolu. Les méthodes existantes introduisent soit des artefacts en imposant des priorités pixel-par-pixel inappropriées issues de contrôles basés sur la structure, soit dépendent d’un fine-tuning spécifique à la condition ou d’architectures spécifiques à une tâche, non généralisables. Nous introduisons Video-As-Prompt (VAP), un nouveau paradigme qui reformule ce problème comme une génération in-context. VAP utilise une vidéo de référence comme prompt sémantique direct, guidant un Transformer de diffusion vidéo (DiT) figé via un expert plug-and-play basé sur un Mélange de Transformers (MoT). Cette architecture évite le oubli catastrophique et est guidée par une embedding de position biaisée temporellement, qui élimine les priorités de correspondance artificielles pour une récupération de contexte robuste. Pour soutenir cette approche et stimuler la recherche future, nous avons construit VAP-Data, le plus grand jeu de données pour la génération vidéo contrôlée sémantiquement, comprenant plus de 100 000 paires de vidéos réparties sur 100 conditions sémantiques. En tant que modèle unique et unifié, VAP établit un nouveau record d’état de l’art pour les méthodes open-source, atteignant un taux de préférence utilisateur de 38,7 %, rivalisant ainsi avec les modèles commerciaux les plus performants spécifiques à la condition. La forte généralisation zéro-shot de VAP, ainsi que sa capacité à soutenir diverses applications en aval, marquent une avancée significative vers la génération vidéo contrôlable et généraliste.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp