Command Palette
Search for a command to run...
Skalierung der video-basierten Bearbeitung auf der Grundlage von Anweisungen mit einem hochwertigen synthetischen Datensatz

Abstract
Die an Anweisungen orientierte Videobearbeitung verspricht, die Content-Erstellung zu demokratisieren, wird jedoch durch die knappe Verfügbarkeit großer, hochwertiger Trainingsdaten erheblich behindert. Wir stellen Ditto vor, einen umfassenden Rahmen, der diese zentrale Herausforderung angeht. Im Kern verfügt Ditto über eine neuartige Datengenerierungspipeline, die die kreative Vielfalt eines führenden Bildeditors mit einem kontextbasierten Videogenerator verbindet und so die begrenzte Funktionsbreite bestehender Modelle überwindet. Um diesen Prozess praktikabel zu machen, löst unser Framework das problematische Kosten-Qualität-Verhältnis durch eine effiziente, reduzierte Modellarchitektur, die durch einen zeitlichen Verbesserungsmodul ergänzt wird. Dieser verringert gleichzeitig den Rechenaufwand und steigert die zeitliche Kohärenz. Schließlich ermöglicht ein intelligentes Agens, das die gesamte Pipeline steuert, eine vollständige Skalierbarkeit, indem es vielfältige Anweisungen generiert und die Ausgabe rigoros filtert, um eine qualitativ hochwertige Kontrolle im großen Maßstab sicherzustellen. Mit diesem Framework haben wir über 12.000 GPU-Tage investiert, um Ditto-1M, eine neue Datensammlung mit einer Million hochfidelitätsreicher Beispiele für Videobearbeitung, zu erstellen. Wir haben unser Modell Editto mit einer Curriculum-Learning-Strategie auf Ditto-1M trainiert. Die Ergebnisse belegen eine überlegene Fähigkeit zur Anweisungsausführung und etablieren eine neue State-of-the-Art in der an Anweisungen orientierten Videobearbeitung.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.