HyperAIHyperAI

Command Palette

Search for a command to run...

Phantom-Daten: Auf dem Weg zu einem allgemeinen, subjekt-konsistenten Video-Generierungsdatensatz

Zusammenfassung

Die Generierung von Videos auf der Grundlage von Texten (subject-to-video generation) hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch stellen bestehende Modelle noch erhebliche Herausforderungen dar, wenn es darum geht, textbasierte Anweisungen treu zu befolgen. Diese Einschränkung, die allgemein als das Kopier-Einfüge-Problem bekannt ist, resultiert aus dem weit verbreiteten Paartrainingsparadigma (in-pair training paradigm). Bei diesem Ansatz werden Referenzbilder aus derselben Szene wie das Zielvideo abgetastet, was die Identität des Objekts mit Hintergrund- und kontextuellen Attributen verflochten. Um dieses Problem zu lösen, stellen wir Phantom-Data vor, den ersten allgemeinen Datensatz für die konsistente Generierung von Videos über verschiedene Kategorien hinweg, der etwa eine Million identitätskonsistente Paare enthält.Unser Datensatz wird durch einen dreistufigen Pipeline-Prozess erstellt: (1) ein allgemeines und eingerichtetes Modul zur Erkennung des Objekts (input-aligned subject detection module), (2) groß angelegte cross-contextuelle Subjekt-Retrieval aus mehr als 53 Millionen Videos und 3 Milliarden Bildern sowie (3) prior-gesteuerte Identitätsverifizierung, um visuelle Konsistenz bei kontextuellen Variationen sicherzustellen. Ausführliche Experimente zeigen, dass das Training mit Phantom-Data die Anweisungsangleichung und die visuelle Qualität erheblich verbessert, während es gleichzeitig die Identitätskonsistenz im Vergleich zu in-paar-basierten Baselines beibehält.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Phantom-Daten: Auf dem Weg zu einem allgemeinen, subjekt-konsistenten Video-Generierungsdatensatz | Paper | HyperAI