Command Palette
Search for a command to run...
LuxDiT: Beleuchtungsschätzung mit Video-Diffusions-Transformer
Ruofan Liang Kai He Zan Gojcic Igor Gilitschenski Sanja Fidler Nandita Vijaykumar Zian Wang

Abstract
Die Schätzung der Szenenbeleuchtung aus einer einzigen Bild- oder Videoaufnahme bleibt eine herausfordernde Aufgabe in der Computer Vision und Grafik. Lernbasierte Ansätze sind durch die Knappheit an Ground-Truth-HDR-Umgebungsmapps eingeschränkt, die aufwendig zu erfassen sind und in ihrer Vielfalt begrenzt sind. Obwohl kürzlich entwickelte generative Modelle starke Prioritäten für die Bildsynthese bieten, bleibt die Beleuchtungsschätzung schwierig, da sie auf indirekte visuelle Hinweise angewiesen ist, die Inferenz globaler (nicht-lokaler) Kontextinformationen erfordert und die Rekonstruktion hochdynamischer Ausgaben erfordert. Wir stellen LuxDiT vor, einen neuartigen datenbasierten Ansatz, der einen Video-Diffusions-Transformer feinabstimmt, um HDR-Umgebungsmapps bedingt auf visuelle Eingaben zu generieren. Auf einer großen synthetischen Datensammlung mit vielfältigen Beleuchtungsbedingungen trainiert, lernt unser Modell, die Beleuchtung aus indirekten visuellen Hinweisen abzuleiten und zeigt eine effektive Generalisierung auf reale Szenen. Um die semantische Ausrichtung zwischen der Eingabe und der vorhergesagten Umgebungsmappe zu verbessern, führen wir eine Low-Rank-Adaptation-Feinabstimmungsstrategie mit einer gesammelten Datensammlung an HDR-Panoramen ein. Unser Verfahren erzeugt präzise Beleuchtungsschätzungen mit realistischen hochfrequenten Winkeldetails und übertrifft bestehende State-of-the-Art-Techniken sowohl quantitativ als auch qualitativ.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.