Command Palette
Search for a command to run...
Gleichmäßige diskrete Diffusion mit metrischem Pfad für die Videogenerierung

Abstract
Die kontinuierliche Raum-Video-Generierung hat sich rasch weiterentwickelt, während diskrete Ansätze aufgrund von Fehlerakkumulation und Inkonsistenzen über lange Kontexte zurückbleiben. In dieser Arbeit überprüfen wir erneut die diskrete generative Modellierung und stellen URSA (Uniform discRete diffuSion with metric pAth) vor – einen einfachen, aber leistungsfähigen Rahmen, der die Lücke zu kontinuierlichen Ansätzen bei der skalierbaren Video-Generierung schließt. Im Kern formuliert URSA die Aufgabe der Video-Generierung als iterative globale Verbesserung diskreter räumlich-zeitlicher Tokens. Der Ansatz integriert zwei zentrale Komponenten: einen linearisierten metrischen Pfad und eine auf die Auflösung abgestimmte Zeitstufen-Verschiebung. Diese Designentscheidungen ermöglichen es URSA, effizient auf hohe Bildauflösungen und lange Video-Dauer zu skalieren, während gleichzeitig deutlich weniger Inferenzschritte erforderlich sind. Zudem führen wir eine asynchrone zeitliche Feinabstimmungsstrategie ein, die verschiedene Aufgaben innerhalb eines einzigen Modells vereint, darunter Interpolation und Bild-zu-Video-Generierung. Umfangreiche Experimente auf anspruchsvollen Benchmarks für Video- und Bildgenerierung zeigen, dass URSA bestehende diskrete Methoden konsistent übertrifft und eine Leistung erreicht, die mit den modernsten kontinuierlichen Diffusionsmethoden vergleichbar ist. Der Quellcode und die Modelle sind unter https://github.com/baaivision/URSA verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.