Phantom-Daten: Auf dem Weg zu einem allgemeinen, subjekt-konsistenten Video-Generierungsdatensatz

Die Generierung von Videos auf der Grundlage von Texten (subject-to-video generation) hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch stellen bestehende Modelle noch erhebliche Herausforderungen dar, wenn es darum geht, textbasierte Anweisungen treu zu befolgen. Diese Einschränkung, die allgemein als das Kopier-Einfüge-Problem bekannt ist, resultiert aus dem weit verbreiteten Paartrainingsparadigma (in-pair training paradigm). Bei diesem Ansatz werden Referenzbilder aus derselben Szene wie das Zielvideo abgetastet, was die Identität des Objekts mit Hintergrund- und kontextuellen Attributen verflochten. Um dieses Problem zu lösen, stellen wir Phantom-Data vor, den ersten allgemeinen Datensatz für die konsistente Generierung von Videos über verschiedene Kategorien hinweg, der etwa eine Million identitätskonsistente Paare enthält.Unser Datensatz wird durch einen dreistufigen Pipeline-Prozess erstellt: (1) ein allgemeines und eingerichtetes Modul zur Erkennung des Objekts (input-aligned subject detection module), (2) groß angelegte cross-contextuelle Subjekt-Retrieval aus mehr als 53 Millionen Videos und 3 Milliarden Bildern sowie (3) prior-gesteuerte Identitätsverifizierung, um visuelle Konsistenz bei kontextuellen Variationen sicherzustellen. Ausführliche Experimente zeigen, dass das Training mit Phantom-Data die Anweisungsangleichung und die visuelle Qualität erheblich verbessert, während es gleichzeitig die Identitätskonsistenz im Vergleich zu in-paar-basierten Baselines beibehält.