HyperAIHyperAI

Command Palette

Search for a command to run...

vor 21 Tagen

UniLumos: Schnelle und einheitliche Relighting von Bildern und Videos mit physikalisch plausibler Rückkopplung

Ropeway Liu Hangjie Yuan Bo Dong Jiazheng Xing Jinwang Wang Rui Zhao Yan Xing Weihua Chen Fan Wang

UniLumos: Schnelle und einheitliche Relighting von Bildern und Videos mit physikalisch plausibler Rückkopplung

Abstract

Relighting ist eine zentrale Aufgabe mit sowohl praktischem Bedarf als auch künstlerischem Wert. Kürzlich haben Diffusionsmodelle aufgrund ihrer Fähigkeit, reichhaltige und kontrollierbare Beleuchtungseffekte zu erzeugen, erhebliches Potenzial gezeigt. Allerdings führen sie typischerweise in semantischen Latentraum-Optimierungen, in dem Nähe nicht zwangsläufig physische Korrektheit im visuellen Raum garantiert, oft zu unrealistischen Ergebnissen – beispielsweise zu überbelichteten Glanzstellen, fehlerhaft positionierten Schatten oder inkorrekten Verdeckungen. Um diesem Problem entgegenzuwirken, präsentieren wir UniLumos, einen einheitlichen Relighting-Framework für Bilder und Videos, der geometrische Rückkopplung im RGB-Raum in ein Flow-Matching-Backbone integriert. Durch die Supervision des Modells mittels aus den Ausgaben extrahierter Tiefen- und Normalenkarten wird die Beleuchtung explizit an die Szenenstruktur angepasst, wodurch die physische Plausibilität signifikant verbessert wird. Dennoch erfordert diese Rückkopplung hochwertige Ausgaben zur Supervision im visuellen Raum, was die herkömmliche mehrstufige Denoising-Verarbeitung rechenintensiv macht. Um dies zu verringern, nutzen wir Pfadkonsistenz-Lernen, wodurch die Supervision auch bei nur wenigen Trainingsstufen effektiv bleibt. Um feinabgestimmte Kontrolle und Supervision bei der Relighting zu ermöglichen, entwickeln wir ein strukturiertes sechsdimensionales Annotationsschema, das zentrale Beleuchtungseigenschaften erfasst. Auf dieser Grundlage schlagen wir LumosBench vor – einen entkoppelten, attributbasierten Benchmark, der die Kontrollierbarkeit der Beleuchtung mittels großer Vision-Language-Modelle evaluiert und somit eine automatisierte und interpretierbare Beurteilung der Relighting-Genauigkeit entlang einzelner Dimensionen ermöglicht. Ausführliche Experimente zeigen, dass UniLumos die derzeit beste Relighting-Qualität erreicht, wobei die physische Konsistenz erheblich verbessert wird, und gleichzeitig eine 20-fache Beschleunigung sowohl für Bilder als auch für Videos erzielt. Der Quellcode ist unter https://github.com/alibaba-damo-academy/Lumos-Custom verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UniLumos: Schnelle und einheitliche Relighting von Bildern und Videos mit physikalisch plausibler Rückkopplung | Forschungsarbeiten | HyperAI