HyperAI
Back to Headlines

Toyota-Research: LBM reduziert Datenbedarf um 80% und meistert 29 Aufgaben.

vor 5 Tagen

Das Toyota Research Institute (TRI) hat kürzlich eine bahnbrechende Studie zu großen Verhaltensmodellen (LBMs, Large Behavior Models) veröffentlicht, die das Lernverhalten von Robotern revolutionieren könnte. Die Ergebnisse zeigen, dass durch vorab trainierte LBMs der Datenbedarf für das Erlernen neuer Aufgaben um bis zu 80 % reduziert werden kann. Ein einzelnes Modell ist in der Lage, Hunderte unterschiedliche Manöver zu beherrschen. Die entsprechende Forschungsarbeit wurde unter dem Titel "Eine detaillierte Untersuchung großer Verhaltensmodelle für mehrere Aufgaben mit feingliedriger Manipulation" auf arXiv veröffentlicht. Russ Tedrake, Vizepräsident des TRI und Professor am Massachusetts Institute of Technology (MIT), äußerte sich auf Social Media, indem er betonte: "LBMs funktionieren tatsächlich! Mit einer zunehmenden Menge an Vordatensätzen sehen wir konsistente und statistisch bedeutsame Verbesserungen." Die traditionelle Methode zur Roboterausbildung hat viele Einschränkungen: Jede Aufgabe muss separat programmiert werden, das Lernen ist langsam und inkonsistent, und es wird oft nur auf eng definierte Aufgaben und stark begrenzte Umgebungen angewendet. Im Gegensatz dazu basieren LBMs auf einem Ansatz ähnlich wie bei großen Sprachmodellen (LLMs, Large Language Models), aber optimiert für physikalische Handlungen von Robotern. Das von TRI verwendete LBM-Framework ist ein komplexes neuronales Netzwerk, das auf Diffusionsmodellen und Transformatoren aufbaut. Es integriert visuelle Informationen aus mehreren Kameras (einschließlich Kameras am Roboterarm und im Szenariobereich), propriozeptive Daten des Roboters wie Position und Haltung, sowie natürlichsprachliche Befehle, die von Menschen gegeben werden. Dieses multimodale System lernt direkt eine Reihe von zusammenhängenden und präzisen Handlungsanweisungen für den Roboter zu generieren. Genauer gesagt können diese Modelle eine Sequenz von 16 Zeitstufen (ca. 1,6 Sekunden) voraussagen, um flüssige und vorhersagbare Operationen zu ermöglichen. Für die Validierung wurden mehrere LBMs auf nahezu 1.700 Stunden von Roboter-Demonstrationsdaten trainiert, die 468 Stunden interne Fernsteuerdaten von zweiaxigen Robotern, 45 Stunden simuliert erfasste Fernsteuerdaten, 32 Stunden Daten aus dem Universal Manipulation Interface (UMI) und etwa 1.150 Stunden sorgfältig ausgewählte Internetdaten aus dem Open X-Embodiment Datensatz umfassten. In der Evaluierung führten die Forscher 1.800 Realwelt-Tests und über 47.000 Simulationsversuche durch, die 29 verschiedene Aufgaben abdeckten. Um die Zuverlässigkeit der Ergebnisse zu gewährleisten, nutzten sie blindierte A/B-Tests und entwickelten einen neuen statistischen Bewertungsrahmen. Die Hardwareplattform für die Studie basierte auf einem zweiaxigen Betriebssystem mit Franka Panda FR3-Robotern, die bis zu sechs Kameras hatten – bis zu zwei pro Handgelenk und zwei statische Szene-Kameras. Auf der Wahrnehmungsebene verwendet das Modell den vorab trainierten CLIP-Bildtransformer, um Bildmerkmale zu extrahieren, und den CLIP-Textencoder, um sprachliche Merkmale der Befehle zu verarbeiten. Diese visuellen und sprachlichen Merkmale werden zusammen mit propriozeptiven Informationen und Diffusion-Zeitschritten kodiert, um die Beobachtungsmerkmale zu bilden. Bei der Generierung von Handlungen nutzen LBMs den Denoising Diffusion Implicit Model (DDIM) zur Erzeugung kontinuierlicher Roboterbewegungen. Durch einen iterativen Entrauschungsprozess werden von Gauss'schem Rauschen ausgehende Proben schrittweise in genaue Handlungssequenzen transformiert. Die Studie kam zu drei entscheidenden Erkenntnissen. Erstens zeigten fine-tuning-gestützte LBMs stets bessere Leistungen als Einzel-Aufgaben-Basismodelle in bereits gesehenen Aufgaben. In Nennbedingungen und bei Verteilungsverschiebungen zeigte das fine-tuning-gestützte LBM sowohl in der Simulation als auch in der Realität statistisch signifikante Vorteile. Zweitens zeigten LBMs eine größere Robustheit. Obwohl die Gesamtleistung bei Verteilungsverschiebungen sank, zeigten fine-tuning-gestützte LBMs eine stärkere Anpassungsfähigkeit als Strategien, die von Null aus trainiert wurden. In der Simulation verbesserten sich die LBMs von 3/16 Aufgaben bei Nennbedingungen auf 10/16 Aufgaben bei Verteilungsverschiebungen. Drittens und am wichtigsten konnten LBMs den Datenbedarf für das Erlernen neuer Aufgaben drastisch reduzieren. In der Simulation konnte ein LBM, das fine-tuned wurde, eine vergleichbare Leistung bei nur 30 % des Datenbedarfs erzielen, den ein Modell vom Grundschliff braucht. In der Realität war dieser Vorteil noch ausgeprägter – das LBM erreichte eine bessere Leistung mit nur 15 % des Datenbedarfs. Die Studie bestätigte auch das Skalierungsgesetz der LBMs. Die Forscher entdeckten, dass die Modellleistung mit steigender Menge an Vordatensätzen stetig anstieg. Selbst bei der aktuellen Datenmenge gab es keine Diskontinuität oder abrupte Wendepunkte in der Performance, was darauf hinweist, dass die künstliche Intelligenz-Skalierung auch im Bereich der Robotik effektiv sein kann. Um die Grenzen der LBMs zu testen, entwarfen die Forscher verschiedene komplexe Langzeit-Aufgaben. Zum Beispiel musste der Roboter in der Aufgabe "Apfel schneiden" einen Apfelkerneherausnehmer verwenden, um den Apfel zu entkernen, Werkzeuge von einem Gestell nehmen, das Messer aus der Scheide ziehen, den Apfel halbieren und in Scheiben schneiden, und abschließend das Messer mit einem Tuch reinigen und wieder in die Scheide legen. In diesen komplexen Aufgaben zeigten LBMs eine überlegene Performance im Vergleich zu traditionellen Methoden. Ein wichtiger Beitrag dieser Studie besteht darin, die statistische Strenge bei der Bewertung von Robotik-Lernmethoden zu betonen. Das Forschungsteam wies darauf hin, dass viele Robotik-Lernarbeiten aufgrund unzureichender statistischer Power eher statistisches Rauschen als echte Effekte messen. Sie zeigten, dass bei 50 Testläufen die Konfidenzintervallbreite typischerweise 20–30 % des absoluten Erfolgsrates beträgt, was es unmöglich macht, andere als die großskaligsten Effekte zuverlässig zu messen. Um dieses Problem zu lösen, verwendeten sie bayessche Analysemethoden mit einem uniformen Beta-Prior, um die Posteriorsuccessrate zu berechnen, und das Compact Letter Display (CLD)-Verfahren, um statistische Signifikanz zu indizieren. Dies stellt neue Bewertungsstandards für die Robotik-Lernforschung auf. Die Ergebnisse zeigen, dass selbst bei relativ kleinen Datenmengen Vortraining konsistente Leistungsverbesserungen bringt. Dies ermöglicht einen virtuellen Kreislauf von Datenbeschaffung und Leistungssteigerung. Je mehr Aufgaben in das Vorabtrainingsdatenset integriert werden, desto besser wird die allgemeine Leistung des LBM. Allerdings zeigte das Team auch einige Einschränkungen. Nicht fine-tuned vorab trainierte LBMs zeigten ungleichmäßige Leistungen, was teilweise auf die begrenzte Spracheingabe-Fähigkeit des Modells zurückgeführt wird. Der Vorschlag, größere visuell-sprachliche Verhaltensprototypen zu verwenden, zeigte in internen Tests gute Aussichten, erfordert jedoch weitere Arbeit zur strengen Verifizierung. Industrieexperten loben diese Entwicklung als einen bedeutenden Schritt voran in der Robotik-Lernforschung. Das TRI ist bekannt für fortschrittliche Arbeiten im Bereich autonomer Systeme und maschinelles Lernen, und diese Studie verstärkt sein Profil als führendes Institut. Die Fähigkeit, Roboter effizienter zu trainieren, könnte nicht nur die Kosten senken, sondern auch die Anwendungsbereiche erweitern, indem komplexe Aufgaben schneller und mit weniger Ressourcen erlernt werden können.

Related Links