HyperAIHyperAI

Command Palette

Search for a command to run...

Das Team des Huawei Noah's Ark Lab und andere stellt ein neues Framework vor, das Robot Operating System mit Large Language Models kombiniert, um eine Steuerung durch natürliche Sprache zu ermöglichen.

Forscher des Huawei Noah's Ark Lab in London, der Technischen Universität Darmstadt und der ETH Zürich haben ein neues Framework vorgestellt, das große Sprachmodelle mit dem Robot Operating System (ROS) verbindet. Ziel dieser Zusammenarbeit ist es, die Fähigkeit von Robotern zu verbessern, menschliche Anweisungen in der natürlichen Sprache präzise in ausführbare physikalische Aktionen umzuwandeln. Die Ergebnisse dieser Forschungsarbeit wurden kürzlich im Fachjournal Nature Machine Intelligence veröffentlicht. Die Forschung adressiert eine zentrale Herausforderung der künstlichen Intelligenz: autonome Roboter müssen in der Lage sein, komplexe, natürliche Befehle von Nutzern zu verstehen und diese sicher in reale Umgebungen wie Haushalte, Büros oder öffentliche Räume zu übertragen. Das vorgestellte System verbindet dabei zwei Schlüsseltechnologien. Große Sprachmodelle, die durch das Training auf riesigen Textdatenmengen entstanden sind, verarbeiten die semantische Bedeutung von Anweisungen. Das Robot Operating System (ROS) dient als weit verbreitete Open-Source-Software, die die eigentliche Steuerung der Robotik-Hardware übernimmt. Durch die Integration beider Systeme entsteht eine flexible Plattform für künstliche Intelligenz mit physischer Ausprägung. Der Kern des Frameworks ermöglicht es einem Agenten, die Ausgaben des Sprachmodells automatisch in Roboteraktionen zu übersetzen. Dieser Prozess unterstützt verschiedene Ausführungsmodi: Er kann entweder direkt ausführbaren Code inline generieren oder Entscheidungsbäume verwenden. Letztere organisieren Aktionen in eine klare Sequenz und bieten Alternativen, falls ein Schritt fehlschlägt. Zudem lernt das System neue elementare Fähigkeiten durch Imitation und verfeinert diese kontinuierlich durch automatisierte Optimierung sowie Feedback von Menschen oder der Umgebung. In der Praxis bedeutet dies, dass eine Eingabe wie „Hebe den grünen Würfel auf und lege ihn auf das schwarze Regal" vom Sprachmodell in eine detaillierte Schritt-für-Schritt-Planung zerlegt wird, die anschließend vom ROS umgesetzt wird. Die Forscher führten umfangreiche Experimente mit verschiedenen Robotern durch, die eine breite Palette realer Aufgaben bewältigen mussten. Die Ergebnisse zeigten sich äußerst vielversprechend. Das Framework bewies in unterschiedlichsten Szenarien Robustheit, Skalierbarkeit und Vielseitigkeit. Dazu gehörten Aufgaben mit langen Zeithorizonten, das Umordnen von Gegenständen auf Tischen, dynamische Aufgabenoptimierung sowie die Fernüberwachung. Ein bemerkenswerter Aspekt der Studie ist, dass alle Tests mit kostenlosen, vortrainierten Open-Source-Sprachmodellen durchgeführt wurden, was die Reproduzierbarkeit und den breiten Zugang zu dieser Technologie erleichtert. Die Autoren Christopher E. Mower und seine Kollegen haben die vollständige Implementierung als Open-Source-Code veröffentlicht, um die Forschung in diesem Bereich zu fördern. Zukünftige Entwicklungen könnten das Framework noch weiter verfeinern und auf eine größere Bandbreite an Robotertypen sowie komplexere und dynamischere Umgebungen ausweiten. Diese Arbeit ebnet den Weg für ähnliche Lösungen, die die Lücke zwischen sprachlicher Kommunikation und robotischer Steuerung schließen. Die Studie unterstreicht, wie die Kombination bestehender Technologien die Autonomie von Robotern in alltäglichen Settings signifikant vorantreiben kann, ohne dass dafür ausschließlich proprietäre oder neu entwickelte Modelle erforderlich sind.

Verwandte Links