HyperAI

Ein neues Algorithmus-Modell namens BrainBody-LLM, entwickelt von Forschern der NYU Tandon School of Engineering, ermöglicht Robotern, menschenähnliche Planung und Bewegung durch die Nutzung großer Sprachmodelle (LLMs) nachzuahmen. Inspiriert von der Wechselwirkung zwischen menschlichem Gehirn und Körper bei der Ausführung von Aufgaben, besteht das System aus zwei LLMs: dem Brain-LLM und dem Body-LLM. Der Brain-LLM zerlegt komplexe Aufgaben – wie „Chips auf der Couch essen“ – in sequenzielle, verständliche Schritte, indem er sein Wissen über reale Umgebungen nutzt. Der Body-LLM übersetzt jeden dieser Schritte in konkrete, ausführbare Befehle für den Roboter. Ein geschlossener Regelkreis sorgt dafür, dass Umgebungsreaktionen und Fehlermeldungen kontinuierlich zurückgesendet werden, um die Planung dynamisch anzupassen und Korrekturen vorzunehmen. Dieser Ansatz ermöglicht eine robuste Bewältigung komplexer und unvorhersehbarer Aufgaben. Die Forscher testeten das Modell sowohl in der Simulation (auf der Plattform VirtualHome) als auch in der realen Welt mit dem Roboterarm Franka Research 3. In beiden Umgebungen zeigte das BrainBody-LLM signifikante Verbesserungen: Es erhöhte die Erfolgsrate bei der Ausführung von Aufgaben um 17 Prozent gegenüber bestehenden State-of-the-Art-Modellen und erreichte eine durchschnittliche Erfolgsquote von 84 Prozent. Besonders bemerkenswert ist die Fähigkeit des Systems, bei fehlenden oder unerwarteten Umgebungsbedingungen – wie zum Beispiel einem fehlenden Chip-Beutel – nicht einfach zu scheitern, sondern durch die Rückmeldung von Fehlern die Planung anzupassen und alternative Lösungen zu generieren. Die Forscher betonen, dass ihr Ansatz sich von anderen LLM-basierten Agenten unterscheidet, da er nicht nur eine sequenzielle Planung, sondern auch eine kontinuierliche Anpassung an die Realität ermöglicht. „LLMs verstehen menschliche Interaktionen in realen Umgebungen sehr gut“, sagt Co-Autor Vineet Bhat. „Unser Ziel war es, diese Fähigkeit gezielt in der Robotik zu nutzen, indem wir den LLMs kontrollierten Zugriff auf Roboterbefehle geben.“ Die begrenzte Zugriffsberechtigung sorgt für sichere und kontrollierte Tests. Zukünftig wollen die Forscher das Modell mit weiteren Sensordaten wie 3D-Vision, Tiefensensoren und Gelenksteuerung verbinden, um noch menschenähnlichere Bewegungen zu ermöglichen. Die Arbeit könnte auch andere Forschungsgruppen inspirieren, ähnliche LLM-basierte Ansätze für Roboterentwicklung zu entwickeln. Die Ergebnisse unterstreichen das Potenzial von LLMs nicht nur als Sprach- oder Informationswerkzeuge, sondern als zentrale Komponenten für autonome, adaptiv agierende Roboter in Alltagsszenarien. Industrieexperten sehen in BrainBody-LLM einen bedeutenden Schritt hin zu „kognitiven Robotern“, die nicht nur Befehle ausführen, sondern kontextbewusst planen und lernen. Unternehmen wie Boston Dynamics, Amazon Robotics und Google DeepMind arbeiten bereits an ähnlichen Ansätzen. Die Integration von LLMs in Robotik könnte die Entwicklung von Haushaltsrobotern, Assistenzsystemen und industriellen Automatisierungen beschleunigen. Die Herausforderung bleibt jedoch die Skalierbarkeit und Sicherheit in dynamischen, unstrukturierten Umgebungen – hier zeigt BrainBody-LLM jedoch vielversprechende Ansätze auf.

Verwandte Links

Verwandte Links

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Command Palette

Roboter lernen menschenähnliches Planen mit BrainBody-LLM

Verwandte Links

Command Palette

Roboter lernen menschenähnliches Planen mit BrainBody-LLM

Verwandte Links

Command Palette

Roboter lernen menschenähnliches Planen mit BrainBody-LLM

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.