NVIDIA präsentiert DiffusionRenderer zur präzisen 3D-Szene- und Bildbearbeitung.
NVIDIA stellt neues AI-Tool vor, das präzise Bearbeitung von 3D-Szenen und fotorealistischen Bildern ermöglicht Ein Bild zeigt Beispiele für die Geometrieabschätzungen und spezifische Lichtbedingungen, die durch das Modell generiert wurden. Quelle: Liang et al, NVIDIA In den letzten Jahren haben Computerwissenschaftler zunehmend fortschrittliche KI-Modelle entwickelt, die personalisiertes visuelles Content auf Grundlage spezifischer Eingaben oder Anweisungen erzeugen können. Obwohl solche Modelle zur Bildgenerierung heute weit verbreitet sind, bleibt es oft schwierig, ihre Ergebnisse präzise zu kontrollieren. In einem kürzlich am Conference on Computer Vision and Pattern Recognition (CVPR 2025) in Nashville vorgestellten Papier (11.–15. Juni) präsentierten Forscherinnen und Forscher von NVIDIA DiffusionRenderer, eine neue maschinelles Lernverfahren, das die Generierung und Bearbeitung von Bildern verbessern und Benutzern ermöglichen soll, bestimmte Bildattribute genau anzupassen. „Generative KI hat große Fortschritte im Bereich der visuellen Erstellung gemacht, aber sie führt einen völlig neuen kreativen Workflow ein, der sich von klassischer Grafik unterscheidet und noch immer mit Steuerbarkeit ringt“, erklärte Sanja Fidler, Vizepräsidentin für KI-Forschung bei NVIDIA und Leiterin des Spatial Intelligence Lab, dem Tech Xplore. „Mit DiffusionRenderer wollten wir diese Lücke schließen, indem wir die Präzision traditioneller Grafikpipelines mit der Flexibilität von KI vereinen. Unser Ziel ist es, die nächste Generation von Rendering zu erforschen und zu gestalten, um es zugänglicher, steuerbarer und einfacher in bestehende Tools zu integrieren zu machen.“ Das von Fidler und ihrem Team eingeführte Verfahren kann einzelne zweidimensionale (2D) Videos in grafikkompatible Szenendarstellungen umwandeln. Besonders erwähnenswert ist, dass es Benutzern ermöglicht, die Beleuchtung und Materialien in den Darstellungen anzupassen, um neue Inhalte zu erzeugen, die ihren Bedürfnissen und Vorlieben entsprechen. „DiffusionRenderer ist ein großer Meilenstein, da es gleichzeitig zwei lange offene Herausforderungen in der Computergrafik löst – inverses Rendering zur Extraktion von Geometrie und Materialien aus realen Videos und vorwärts gerichtetes Rendering zur Erstellung von fotorealistischen Bildern und Videos aus Szenendarstellungen“, sagte Fidler. „Eines der spannendsten Ergebnisse von DiffusionRenderer ist, dass es generative KI in die Kernarbeitsschritte von Grafikworkflows integriert und dadurch traditionell zeitaufwendige Aufgaben wie Asset-Erstellung, Beleuchtungsanpassung und Materialbearbeitung effizienter macht.“ Das neue neuronale Rendering-Verfahren basiert auf Diffusionsmodellen, einer Klasse von tiefen Lernalgorithmen, die Bilder durch progressive Verfeinerung von zufälligem Rauschen in kohärente Grafiken erzeugen. Im Gegensatz zu anderen in der Vergangenheit eingeführten Bildgenerierungstechniken arbeitet DiffusionRenderer, indem es zunächst G-Buffers (d.h., Zwischendarstellungen, die bestimmte Attribute hervorheben) erzeugt und diese dann verwendet, um neue und realistische Bilder zu schaffen. „Wir sind auch stolz auf den Durchbruch, den wir bei der Erstellung eines hochwertigen synthetischen Datasets mit genauer Beleuchtung und Materialien erzielt haben, um das Modell zu trainieren, Szenen realistisch zu zerlegen und wieder zusammenzusetzen“, erklärte Fidler weiter. „Wir festgestellt, dass die Qualität mit der Größe des zugrundeliegenden Video-Diffusionsmodells skaliert – was bedeutet, dass die Ergebnisse noch schärfer und konsistentere werden, wenn wir sie mit NVIDIA Cosmos integrieren.“ In Zukunft könnte DiffusionRenderer sowohl von Robotikforschern als auch von kreativen Profis genutzt werden. Zum Beispiel könnten Videospiele-Entwickler, Werbefachleute oder Filmproduzenten damit präzise bestimmte Attribute hinzufügen, entfernen oder bearbeiten. Es könnte auch von Informatikerinnen und Informatikern verwendet werden, um fotorealistische Daten zu erzeugen, die Algorithmen für Robotik oder Bildklassifizierung trainieren. „Ein weiterer großer Einfluss könnte in der Simulation und physikalischen KI liegen – Roboter- und AV-Training benötigen die vielfältigsten Datensätze, und DiffusionRenderer kann neue Beleuchtungsbedingungen aus neuen Szenen erzeugen“, fügte Fidler hinzu. „Wir freuen uns darauf, weiter an den Grenzen in diesem Bereich zu forschen. Unsere zukünftige Arbeit konzentriert sich auf die Erzeugung noch höherwertiger Ergebnisse, die Verbesserung der Laufzeit-effizienz und die Hinzufügung mächtigerer Funktionen wie semantische Steuerung, Objektkomposition und fortgeschrittene Bearbeitungswerkzeuge.“ Branchenexperten sehen in DiffusionRenderer eine wichtige Innovation, die das Potenzial hat, die Arbeitsabläufe in der Medienproduktion und Forschung erheblich zu optimieren. Das Unternehmen NVIDIA, bekannt für seine Leistungen im Bereich Grafikkarten und KI, setzt dabei auf eine Kombination von traditionellen Grafiktechniken und modernster KI, um eine neue Generation von Rendering-Tools zu schaffen, die sowohl effizient als auch benutzerfreundlich sind.