HyperAI超神经

Die Erstellung von roboterbasierten mentalen Modellen mit NVIDIA Warp und Gaussian Splatting Dieser Beitrag beleuchtet eine vielversprechende Richtung zur Erstellung dynamischer digitale Darstellungen der physischen Welt, ein Thema, das in aktuellen Forschungen zunehmend an Bedeutung gewinnt. Wir stellen einen Ansatz vor, um in einem Roboterszenario einen digitalen Zwilling zu erstellen, der ständig im Einklang mit der realen Welt bleibt und in Echtzeit aktualisiert wird. Solche Zwillingsmodelle können reichhaltige Zustandsinformationen liefern, die eine Vielzahl von nachgeschalteten Aufgaben unterstützen und verbessern. Menschen bilden aus der Sehempfindung ein internes Modell der Welt mit bemerkenswerter Leichtigkeit. Wir interpretieren flache Bilder aus unseren Augen als kohärenten, dreidimensionalen Raum. Innerhalb dieses imaginären Raums simulieren wir physische Interaktionen, prognostizieren Ergebnisse und passen uns nahtlos an. Selbst mit geschlossenen Augen können wir uns vorstellen, Gegenstände zu bewegen. Wenn wir die Augen wieder öffnen, passen wir unser Vorstellungsmodell an die realen Ereignisse an. Die Nachbildung dieser dynamischen visuellen-physischen Denkprozesse in Robotern ist ein zukunftsweisender Bereich der physischen KI und beginnt Gestalt anzunehmen. Im Zentrum unseres Ansatzes steht die Idee der "physikalisch eingebetteten Gaußschen Modelle", wonach Roboter von einer kontinuierlich aktualisierten, physisch bewussten Weltmodellierung profitieren. Anstatt sich ausschließlich auf rohe Bildströme oder Offline-Rekonstruktionen zu verlassen, erstellen wir ein Modell, das die Realität in Echtzeit spiegelt. Warum explizite Simulation? Traditionell war die explizite Modellierung der physischen Welt schwierig, da sie bekannte 3D-Modelle, gut kalibrierte Dynamik und präzise Sensoren erfordert, um sicherzustellen, dass Simulationsergebnisse zuverlässig in die reale Welt übertragen werden können. Heute bröckelt dieser Barrieren dank Durchgängigkeitsrendern, insbesondere Gaußschen Splatten, und moderner Segmentierungs- und Szenerkenntnismodelle. Es ist nun möglich, Simulatoren aus nur wenigen Bildern und grundlegendem physikalischem Vorwissen zu generieren. In unserem Anwendungsfall wird hohe Modellgenauigkeit weniger kritisch, da das Simulator durch einen kontinuierlichen Datenstrom aus realen Bildbeobachtungen überwacht und korrigiert werden kann. Kontinuierliche visuelle Überwachung durch durchgängiges Rendern In den "physikalisch eingebetteten Gaußschen Modellen" spielt durchgängiges Rendern eine doppelte Rolle – es initialisiert und überwacht den Simulator. Die Überwachung erfolgt, indem der Zustand des Simulators kontinuierlich angepasst wird, bis die gerenderten Bilder mit den realen Beobachtungen übereinstimmen. Wenn dies mit einem Physik-Engine, die etwa bei 30 Hz betrieben wird, kombiniert wird, entsteht ein robustes Feedback-System. Der Simulator muss lediglich für etwa 33 Millisekunden genau bleiben. Falls er abdriftet, korrigiert das Renderingssystem dies schnell. In der Praxis ermöglicht dies, dass sogar unvollkommen initialisierte physikalische Modelle im Laufe der Zeit genau bleiben, da der Echtzeit-Korrekturmechanismus Fehler in der Simulation ausgleicht. Mit Gaußschen Splatten als Renderer und modernen GPUs kann dieser gesamte Prozess in Echtzeit ablaufen. Weniger Kameras dank starkem Vorwissen Gaußsche Splatsysteme benötigen in der Regel 30 oder mehr Kameras, um zuverlässig zu arbeiten, was für Roboteranwendungen nicht praktikabel ist. Wir begegnen diesem Problem, indem wir das in einem Roboterumfeld vorhandene Vorwissen nutzen. So können wir über die bloße Visuelle Nachbildung hinausgehen. Unsere Darstellung ist nicht nur auf das Aussehen, sondern auch auf die Physik gestützt und funktioniert robust mit deutlich weniger Kameras. Eine doppelte Darstellung: Partikel und Gaußsche Modelle Unser Simulator basiert auf zwei Hauptkomponenten: Partikel, die von dem Physik-System beeinflusst werden. Gaußsche Modelle, die mit Gaußschen Splatten gerendert werden. Die Partikel treiben die Bewegung der Gaußschen Modelle an, während die visuellen Fehler aus dem durchgängigen Rendern korrigierende Kräfte erzeugen, die die Partikel zurück in die Ausrichtung bringen. Dieses doppelte System bildet eine geschlossene Schleife: Physik beeinflusst die Visualisierung, die Visualisierung korrigiert die Physik. Zusammen ermöglichen diese beiden Subsysteme die Aufrechterhaltung eines in Echtzeit, visuell und physisch genauen Modells der Umgebung, das flexibel, effizient und wahrnehmungsbasiert ist. Erbaut mit NVIDIA Warp und gsplat Unser Simulator nutzt NVIDIA Warp als Physik-Engine und Visualisierungswerkzeuge sowie gsplat für durchgängiges Rendern. Für weitere technische Details, Demos und Open-Source-Code besuchen Sie bitte https://embodied-gaussians.github.io/. Bewertung durch Branchenexperten Fachleute in der Robotik- und KI-Industrie bezeichnen diesen Ansatz als durchgreifenden Fortschritt. Die Kombination von durchgängigem Rendern und physisch genauen Modellen schafft neue Möglichkeiten, Roboter in komplexen Umgebungen zu betreiben. NVIDIA, bekannt für seine fortschrittlichen GPU-Technologien, bietet hiermit eine leistungsstarke Plattform für die Entwicklung solcher Systeme. Die Fähigkeit, mit wenigen Kameras und geringem Rechenaufwand zuverlässige Echtzeit-Modelle zu erstellen, wird als entscheidend für die Zukunft der Robotik angesehen.

NVIDIA Warp und Gaussische Splatting für robotische Simulation

Related Links