HyperAIHyperAI

Command Palette

Search for a command to run...

Phantom-Data : Vers un Jeu de Données Général pour la Génération Vidéo Cohérente avec le Sujet

Résumé

La génération de vidéos à partir d'un sujet a connu des progrès substantiels ces dernières années. Cependant, les modèles existants continuent de faire face à des défis importants pour suivre fidèlement les instructions textuelles. Cette limitation, couramment appelée le problème de copier-coller, découle du paradigme d'entraînement en paires utilisé à grande échelle. Cette approche lie intrinsèquement l'identité du sujet aux attributs de fond et de contexte en échantillonnant des images de référence issues de la même scène que la vidéo cible. Pour remédier à ce problème, nous présentons Phantom-Data, le premier jeu de données généraliste d'alignement croisé entre paires pour la génération de vidéos à partir d'un sujet, comprenant environ un million de paires d'identité cohérente dans diverses catégories. Notre jeu de données est construit grâce à une pipeline en trois étapes : (1) un module de détection du sujet général et aligné sur l'entrée, (2) une recherche à grande échelle de sujets dans différents contextes parmi plus de 53 millions de vidéos et 3 milliards d'images, et (3) une vérification guidée par des a priori de l'identité pour assurer la cohérence visuelle malgré les variations contextuelles. Des expériences exhaustives montrent que l'entraînement avec Phantom-Data améliore considérablement l'alignement des prompts et la qualité visuelle tout en préservant la cohérence d'identité comparable aux méthodes basées sur l'entraînement en paires.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Phantom-Data : Vers un Jeu de Données Général pour la Génération Vidéo Cohérente avec le Sujet | Articles | HyperAI