HyperAIHyperAI

Command Palette

Search for a command to run...

vor 6 Tagen

Gleichmäßige diskrete Diffusion mit metrischem Pfad für die Videogenerierung

Gleichmäßige diskrete Diffusion mit metrischem Pfad für die Videogenerierung

Abstract

Die kontinuierliche Raum-Video-Generierung hat sich rasch weiterentwickelt, während diskrete Ansätze aufgrund von Fehlerakku­mulation und Inkonsistenzen über lange Kontexte zurückbleiben. In dieser Arbeit überprüfen wir erneut die diskrete generative Modellierung und stellen URSA (Uniform discRete diffuSion with metric pAth) vor – einen einfachen, aber leistungsfähigen Rahmen, der die Lücke zu kontinuierlichen Ansätzen bei der skalierbaren Video-Generierung schließt. Im Kern formuliert URSA die Aufgabe der Video-Generierung als iterative globale Verbesserung diskreter räumlich-zeitlicher Tokens. Der Ansatz integriert zwei zentrale Komponenten: einen linearisierten metrischen Pfad und eine auf die Auflösung abgestimmte Zeitstufen-Verschiebung. Diese Designentscheidungen ermöglichen es URSA, effizient auf hohe Bildauflösungen und lange Video-Dauer zu skalieren, während gleichzeitig deutlich weniger Inferenzschritte erforderlich sind. Zudem führen wir eine asynchrone zeitliche Feinabstimmungsstrategie ein, die verschiedene Aufgaben innerhalb eines einzigen Modells vereint, darunter Interpolation und Bild-zu-Video-Generierung. Umfangreiche Experimente auf anspruchsvollen Benchmarks für Video- und Bildgenerierung zeigen, dass URSA bestehende diskrete Methoden konsistent übertrifft und eine Leistung erreicht, die mit den modernsten kontinuierlichen Diffusionsmethoden vergleichbar ist. Der Quellcode und die Modelle sind unter https://github.com/baaivision/URSA verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gleichmäßige diskrete Diffusion mit metrischem Pfad für die Videogenerierung | Forschungsarbeiten | HyperAI