vor 2 Monaten

LuxDiT: Beleuchtungsschätzung mit Video-Diffusions-Transformer

Ruofan Liang Kai He Zan Gojcic Igor Gilitschenski Sanja Fidler Nandita Vijaykumar Zian Wang

Abstract

Die Schätzung der Szenenbeleuchtung aus einer einzigen Bild- oder Videoaufnahme bleibt eine herausfordernde Aufgabe in der Computer Vision und Grafik. Lernbasierte Ansätze sind durch die Knappheit an Ground-Truth-HDR-Umgebungsmapps eingeschränkt, die aufwendig zu erfassen sind und in ihrer Vielfalt begrenzt sind. Obwohl kürzlich entwickelte generative Modelle starke Prioritäten für die Bildsynthese bieten, bleibt die Beleuchtungsschätzung schwierig, da sie auf indirekte visuelle Hinweise angewiesen ist, die Inferenz globaler (nicht-lokaler) Kontextinformationen erfordert und die Rekonstruktion hochdynamischer Ausgaben erfordert. Wir stellen LuxDiT vor, einen neuartigen datenbasierten Ansatz, der einen Video-Diffusions-Transformer feinabstimmt, um HDR-Umgebungsmapps bedingt auf visuelle Eingaben zu generieren. Auf einer großen synthetischen Datensammlung mit vielfältigen Beleuchtungsbedingungen trainiert, lernt unser Modell, die Beleuchtung aus indirekten visuellen Hinweisen abzuleiten und zeigt eine effektive Generalisierung auf reale Szenen. Um die semantische Ausrichtung zwischen der Eingabe und der vorhergesagten Umgebungsmappe zu verbessern, führen wir eine Low-Rank-Adaptation-Feinabstimmungsstrategie mit einer gesammelten Datensammlung an HDR-Panoramen ein. Unser Verfahren erzeugt präzise Beleuchtungsschätzungen mit realistischen hochfrequenten Winkeldetails und übertrifft bestehende State-of-the-Art-Techniken sowohl quantitativ als auch qualitativ.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LuxDiT: Beleuchtungsschätzung mit Video-Diffusions-Transformer

Ruofan Liang Kai He Zan Gojcic Igor Gilitschenski Sanja Fidler Nandita Vijaykumar Zian Wang

Abstract

KI mit KI entwickeln

Hyper Newsletters