HyperAI

Forschungsteams von MITs Computer Science and Artificial Intelligence Laboratory (CSAIL) und dem Toyota Research Institute haben eine innovative Methode namens „steerable scene generation“ entwickelt, um virtuelle Trainingsumgebungen für Roboter realistischer und vielfältiger zu gestalten. Während Sprachmodelle wie ChatGPT auf riesigen Textdaten basieren, benötigen Roboter für Aufgaben wie das Greifen, Stapeln oder Platzieren von Objekten in Haushalten oder Fabriken präzise, physikalisch korrekte Simulationen. Bisherige Ansätze waren entweder auf künstlich generierten Simulationen mit fehlerhaften Physik-Modellen oder auf mühsam handgefertigten digitalen Szenen angewiesen. Die neue Technologie nutzt dagegen eine Kombination aus Diffusionsmodellen und dem Monte-Carlo-Tree-Search-Algorithmus (MCTS), um dynamisch, realistische 3D-Szenen wie Küchen, Wohnzimmer oder Restaurants zu erzeugen. Das System wurde mit über 44 Millionen 3D-Räumen trainiert und kann bestehende Objektmodelle – wie Tische, Teller oder Besteck – in neue Szenen integrieren, wobei es sicherstellt, dass physikalische Gesetze eingehalten werden, etwa dass Gegenstände sich nicht durcheinander „fressen“ („clipping“). MCTS ermöglicht es, Szenen schrittweise zu optimieren: Der Algorithmus erzeugt mehrere Varianten einer Szene, bewertet sie nach Zielen wie physikalischer Realität oder Anzahl essbarer Objekte und wählt die beste aus – ähnlich wie AlphaGo bei Go. In Tests gelang es dem System, eine einfache Restaurant-Szene mit durchschnittlich 17 Gegenständen auf bis zu 34 zu erhöhen, darunter komplizierte Stapel von Dim Sum. Zudem kann das System über direkte Texteingaben (z. B. „eine Küche mit vier Äpfeln und einer Schüssel“) genau auf Anforderungen reagieren – mit einer Trefferquote von 98 % bei Küchenschränken und 86 % bei chaotischen Frühstückstischen, deutlich besser als vergleichbare Systeme. Es ermöglicht auch das „Auffüllen“ leerer Räume mit neuen Anordnungen derselben Objekte. Die Forscher betonen, dass es nicht nötig ist, dass die Trainingsdaten perfekt den gewünschten Szenen entsprechen – durch „Steuerung“ mittels MCTS können sie aus der ursprünglichen Datenverteilung heraus „bessere“ Szenen generieren. Diese virtuellen Umgebungen wurden erfolgreich genutzt, um Roboter in komplexen Interaktionen zu simulieren, etwa beim Einräumen von Besteck oder Anordnen von Brot auf Tellern. Obwohl die Technologie noch ein Proof of Concept darstellt, versprechen die Forscher große Fortschritte: In Zukunft sollen generative Modelle nicht nur bestehende Objekte nutzen, sondern auch neue, komplexe Gegenstände wie Öffnungsmechanismen (z. B. Schränke oder Gläser) erzeugen. Experten wie Rick Cory vom Toyota Research Institute sehen darin eine Schlüsseltechnologie für die effiziente Roboterausbildung im realen Leben, insbesondere wenn sie mit umfangreichem Internetwissen kombiniert wird. Die Arbeit wurde auf der Conference on Robot Learning (CoRL) vorgestellt und mit Unterstützung von Amazon und dem Toyota Research Institute entwickelt. Die Methode stellt einen bedeutenden Fortschritt in der Robotikdarstellung dar, da sie die Kluft zwischen Simulation und Realität schließt. Indem sie realistische, vielfältige und zielgerichtete Szenen automatisiert generiert, könnte sie die Entwicklung von Alltagsrobotern beschleunigen. Insbesondere die Integration von MCTS als Entscheidungsstrategie in die Szenerzeugung ist neuartig und könnte auf andere Bereiche wie virtuelle Realität oder autonome Fahrzeuge übertragbar sein. Die Fähigkeit, „nie zuvor gesehene“ Szenen zu erzeugen, ist entscheidend für Roboter, die in unvorhersehbaren Umgebungen agieren müssen. Zudem zeigt die hohe Präzision bei der Ausführung von Textprompts, dass die Technologie benutzerfreundlich und anwendbar ist. Allerdings bleibt die Skalierbarkeit und die Integration von dynamischen, interaktiven Objekten noch Herausforderung. Dennoch wird die Arbeit als wegweisend für die Zukunft der robotischen Ausbildung angesehen – nicht nur wegen der technischen Innovation, sondern auch weil sie eine neue Sichtweise auf die Nutzung von KI für physische Welt-Interaktionen eröffnet.

Verwandte Links

Verwandte Links

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Command Palette

KI-gestützte Generierung realistischer Trainingsumgebungen für Roboter

Verwandte Links

Command Palette

KI-gestützte Generierung realistischer Trainingsumgebungen für Roboter

Verwandte Links

Command Palette

KI-gestützte Generierung realistischer Trainingsumgebungen für Roboter

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.