V-RGBX: Video-Editierung mit präzisen Steuerungsoptionen für intrinsische Eigenschaften
V-RGBX: Video-Editierung mit präzisen Steuerungsoptionen für intrinsische Eigenschaften
Ye Fang Tong Wu Valentin Deschaintre Duygu Ceylan Iliyan Georgiev Chun-Hao Paul Huang Yiwei Hu Xuelin Chen Tuanfeng Yang Wang

Abstract
Großskalige Video-Generationsmodelle haben ein bemerkenswertes Potenzial bei der Modellierung photorealistischer Erscheinungsbilder und Licht-Interaktionen in realen Szenen gezeigt. Ein geschlossener Rahmen, der gleichzeitig die intrinsischen Eigenschaften einer Szene (z. B. Albedo, Normale, Material und Bestrahlung) versteht, für die Video-Synthese nutzt und editierbare intrinsische Darstellungen unterstützt, bleibt jedoch unerforscht. Wir präsentieren V-RGBX, den ersten end-to-end-Framework für intrinsikumschichtete Video-Editierung. V-RGBX vereint drei zentrale Fähigkeiten: (1) die inverse Rendering von Videos in intrinsische Kanäle, (2) die photorealistische Video-Synthese aus diesen intrinsischen Darstellungen und (3) die keyframe-basierte Video-Editierung, die auf intrinsischen Kanälen basiert. Im Kern von V-RGBX liegt ein verschachteltes Bedingungsmechanismus, der intuitive, physikalisch fundierte Video-Editierung durch ausgewählte Keyframes ermöglicht und eine flexible Manipulation beliebiger intrinsischer Modalitäten unterstützt. Umfangreiche qualitative und quantitative Ergebnisse zeigen, dass V-RGBX zeitlich konsistente, photorealistische Videos erzeugt und Keyframe-Änderungen innerhalb von Sequenzen physikalisch plausibel propagiert. Wir demonstrieren die Wirksamkeit von V-RGBX in vielfältigen Anwendungen, darunter die Bearbeitung von Objektappearance und Szenen-Relighting, wobei die Leistungsfähigkeit gegenüber vorherigen Methoden deutlich übertrifft.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.