HyperAI
Back to Headlines

NVIDIA präsentiert DiffusionRenderer: AI für professionelle 3D-Videoschnitt

vor 10 Tagen

NVIDIA veröffentlichte DiffusionRenderer: Ein KI-Modell für bearbeitbare, fotorealistische 3D-Szenen aus einem einzelnen Video Die von KI getriebene Videogenerierung macht rasante Fortschritte. Innerhalb kurzer Zeit sind wir von unscharfen, unzusammenhängenden Clips zu Videos mit atemberaubender Realität getreten. Allerdings fehlte bisher eine entscheidende Fähigkeit: die Kontrolle und Bearbeitung. Während die Erstellung eines schönen Videos eine Sache ist, bot die Möglichkeit, es professionell und realistisch zu bearbeiten – beispielsweise das Licht von Tag zu Nacht zu ändern, das Material eines Objekts von Holz zu Metall zu tauschen oder ein neues Element nahtlos in die Szene einzufügen – eine erhebliche Herausforderung, die größtenteils ungelöst blieb. Dies war der Hauptknackpunkt, der die KI daran hinderte, zu einem grundlegenden Werkzeug für Filmemacher, Designer und Schöpfer aufzusteigen. Mit der Einführung von DiffusionRenderer haben sich die Forscher bei NVIDIA, der University of Toronto, dem Vector Institute und der University of Illinois Urbana-Champaign diesem Problem entschieden angenommen. DiffusionRenderer markiert einen revolutionären Sprung vorwärts und bietet eine einheitliche Lösung, um 3D-Szenen aus einem einzelnen Video zu verstehen und zu manipulieren. Es schließt damit die Lücke zwischen Generierung und Bearbeitung und schafft das wahre kreative Potenzial von KI-getriebenen Inhalten frei. Das alte versus das neue Verfahren: Ein Paradigmenwechsel Fotorealismus war traditionally an die Physically Based Rendering (PBR) gebunden, eine Methode, die den Lichtfluss präzise simuliert. Obwohl PBR faszinierende Ergebnisse liefert, ist es ein brüchiges System. PBR hängt stark von einer perfekten digitalen Vorlage ab – genaue 3D-Geometrie, detaillierte Materialtexturen und präzise Lichtkarten. Der Prozess, diese Vorlage aus der realen Welt zu erfassen, bekannt als inverse Rendering, ist bekanntlich schwierig und fehleranfällig. Selbst kleinste Ungenauigkeiten in den Daten können zu katastrophalen Fehlern im endgültigen Render führen, was PBRs Nutzung außerhalb kontrollierter Studio-Umgebungen stark eingeschränkt hat. Frühere neuronale Rendering-Techniken wie NeRFs waren zwar revolutionär für die Erstellung statischer Ansichten, aber sie stießen beim Bearbeiten an ihre Grenzen. Sie verarbeiten Licht und Material direkt in die Szene, wodurch nachträgliche Änderungen fast unmöglich werden. DiffusionRenderer hingegen vereint das "Was" (die Eigenschaften der Szene) und das "Wie" (das Rendering) in einem einheitlichen Framework, das auf der gleichen leistungsstarken Video-Diffusionsarchitektur basiert, die Modellen wie Stable Video Diffusion zugrunde liegt. Diese Methode verwendet zwei neuronale Renderer, um Video zu verarbeiten: Inverse Rendering: Das Modell prognostiziert detailreichere Strukturen in dünnen Bereichen und genaue Metall- und Rauheitskanäle. Es funktioniert auch überraschend gut bei Outdoor-Szenen. Forward Rendering: Diese Technik erzeugt hochwertige Interreflexionen und Schatten, wodurch genauere Ergebnisse als bei neuronalen Baseline-Methoden erzielt werden. Die Pfadverfolgung (Path Traced GT) dient als Grundwahrheit. Das Geheimnis: Eine neuartige Datenstrategie, um die Realitätslücke zu überbrücken Ein schlauer Modell ist nur so gut wie seine Daten. Die Forscher hinter DiffusionRenderer entwickelten eine geniale zweiphasige Datenstrategie, um ihrem Modell die Feinheiten sowohl perfekter Physik als auch unvollkommener Realität beizubringen. Ein riesiger synthetischer Universum: Zuerst erstellten sie eine enorme, hochwertige synthetische Datensammlung von 150.000 Videos. Mit Tausenden von 3D-Objekten, PBR-Materialien und HDR-Lichtkarten erstellten sie komplexe Szenen und renderten sie mit einem perfekten Pfadverfolgungs-Engine. Dies gab dem inversen Renderer ein makelloses "Lehrbuch", an dem er lernen konnte und ihm perfekte Referenzdaten zur Verfügung stellte. Automatische Beschriftung der realen Welt: Das Team stellte fest, dass der inverse Renderer, der nur auf synthetischen Daten trainiert wurde, erstaunlich gut generalisiert wurde, wenn er auf realen Videos angewendet wurde. Sie ließen ihn auf einer riesigen Datensammlung von 10.510 realen Videos (DL3DV10k) los, und das Modell generierte automatisch G-Buffer-Beschriftungen für diese realen Aufnahmen. Dadurch entstand eine kolossale Datensammlung von 150.000 realen Szenen mit entsprechenden – wenngleich unvollkommenen – intrinsischen Eigenschaftskarten. Durch das gemeinsame Training des forward Renderers auf sowohl den perfekten synthetischen Daten als auch den automatisch beschrifteten realen Daten lernte das Modell, die kritische "Domänenlücke" zu überbrücken. Es erlernte die Regeln aus der synthetischen Welt und das Aussehen und die Wirkung der realen Welt. Um die unvermeidlichen Ungenauigkeiten in den automatisch beschrifteten Daten zu bewältigen, integrierten sie ein LoRA (Low-Rank Adaptation)-Modul, eine clevere Technik, die das Modell an die rauschigere reale Daten anpassen lässt, ohne das aus den präzisen synthetischen Daten gewonnene Wissen zu kompromittieren. Leistungsstarke Ergebnisse Die Ergebnisse sprechen für sich. Bei rigorosen direkten Vergleichen mit sowohl klassischen als auch neuronalen Stand der Technik-Methoden zeigte DiffusionRenderer konstant die besten Leistungen bei allen evaluierten Aufgaben. Die forward Rendering-Ergebnisse sind im Vergleich zur Grundwahrheit (Pfadverfolgungs-GT) atemberaubend. Was man mit DiffusionRenderer tun kann: Mächtige Bearbeitungsfunktionen Diese Forschung öffnet eine Reihe praktischer und mächtiger Bearbeitungsanwendungen, die von einem einzigen, alltäglichen Video ausgehen. Der Workflow ist einfach: Das Modell führt zunächst ein inverses Rendering durch, um die Szene zu verstehen. Dann können Benutzer die Eigenschaften bearbeiten, und das Modell führt ein forward Rendering durch, um ein neues fotorealistisches Video zu erstellen. Eine neue Grundlage für Grafik DiffusionRenderer markiert einen entscheidenden Durchbruch. Indem es die inverse und forward Rendering holistisch in einem einzigen, robusten, datengestützten Framework löst, beseitigt es die langstehenden Barrieren traditioneller PBR. Es demokratisiert das fotorealistische Rendering und bringt es aus dem exklusiven Bereich von VFX-Experten mit leistungsfähiger Hardware in ein zugänglicheres Werkzeug für Schöpfer, Designer und AR/VR-Entwickler. In einem kürzlichen Update verbesserten die Autoren die Videodelighting und Relighting-Fähigkeiten durch den Einsatz von NVIDIA Cosmos und erweiterten Datenkuratierung. Dies zeigt eine vielversprechende Skalierungstendenz: Je leistungsfähiger das zugrundeliegende Video-Diffusionsmodell wird, desto besser und genauer sind die Ergebnisse, was die Technologie noch attraktiver macht. Das neue Modell wird unter der Apache 2.0 Lizenz und der NVIDIA Open Model License veröffentlicht und ist hier verfügbar. Branchenexperten beurteilen die Einführung von DiffusionRenderer sehr positiv. Sie sehen darin das Potenzial, die Videoproduktion und die digitale Grafigik fundamental zu verändern. Die Kombination von präzisen synthetischen Daten mit realen Szenen erlaubt es, die Qualität und Zugänglichkeit von KI-getriebenen Renderings erheblich zu steigern. NVIDIA ist ein führender Anbieter in der Branche der Grafikkarten und KI-Technologien. Die Forscher bei NVIDIA arbeiten kontinuierlich daran, innovative Lösungen zu entwickeln, die die digitale Welt vorantreiben. DiffusionRenderer ist ein weiterer bedeutender Meilenstein in dieser Entwicklung.

Related Links