HyperAI
il y a 15 jours

Phantom-Data : Vers un Jeu de Données Général pour la Génération Vidéo Cohérente avec le Sujet

Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
Phantom-Data : Vers un Jeu de Données Général pour la Génération Vidéo Cohérente avec le Sujet
Résumé

La génération de vidéos à partir d'un sujet a connu des progrès substantiels ces dernières années. Cependant, les modèles existants continuent de faire face à des défis importants pour suivre fidèlement les instructions textuelles. Cette limitation, couramment appelée le problème de copier-coller, découle du paradigme d'entraînement en paires utilisé à grande échelle. Cette approche lie intrinsèquement l'identité du sujet aux attributs de fond et de contexte en échantillonnant des images de référence issues de la même scène que la vidéo cible. Pour remédier à ce problème, nous présentons Phantom-Data, le premier jeu de données généraliste d'alignement croisé entre paires pour la génération de vidéos à partir d'un sujet, comprenant environ un million de paires d'identité cohérente dans diverses catégories. Notre jeu de données est construit grâce à une pipeline en trois étapes : (1) un module de détection du sujet général et aligné sur l'entrée, (2) une recherche à grande échelle de sujets dans différents contextes parmi plus de 53 millions de vidéos et 3 milliards d'images, et (3) une vérification guidée par des a priori de l'identité pour assurer la cohérence visuelle malgré les variations contextuelles. Des expériences exhaustives montrent que l'entraînement avec Phantom-Data améliore considérablement l'alignement des prompts et la qualité visuelle tout en préservant la cohérence d'identité comparable aux méthodes basées sur l'entraînement en paires.