HyperAIHyperAI
vor 11 Tagen

Was bei der Lernphase aus offline menschlichen Demonstrationen für die Robotermanipulation von Bedeutung ist

Ajay Mandlekar, Danfei Xu, Josiah Wong, Soroush Nasiriany, Chen Wang, Rohun Kulkarni, Li Fei-Fei, Silvio Savarese, Yuke Zhu, Roberto Martín-Martín
Was bei der Lernphase aus offline menschlichen Demonstrationen für die Robotermanipulation von Bedeutung ist
Abstract

Die Nachahmung menschlicher Demonstrationen ist ein vielversprechender Ansatz, um Robotern verschiedene Manipulationsfähigkeiten zu verleihen. Obwohl in den letzten Jahren Fortschritte in der Nachahmungslernverfahren und im Batch-(Offline-)Verstärkungslernen erzielt wurden, erschweren die fehlende Verfügbarkeit von Open-Source-Menschen-Datensätzen sowie die mangelnde Reproduzierbarkeit von Lernmethoden die Beurteilung des derzeitigen Forschungsstandes erheblich. In diesem Paper führen wir eine umfassende Studie zu sechs Offline-Lernalgorithmen für die Robotermanipulation durch, die an fünf simulierten und drei realen, mehrstufigen Manipulationstasks unterschiedlicher Komplexität sowie mit Datensätzen unterschiedlicher Qualität evaluiert werden. Unsere Analyse untersucht die zentralen Herausforderungen beim Lernen aus Offline-Daten menschlicher Demonstrationen für Manipulationsaufgaben. Auf Basis dieser Studie leiten wir eine Reihe von Erkenntnissen ab, darunter die Empfindlichkeit gegenüber verschiedenen algorithmischen Designentscheidungen, die Abhängigkeit von der Qualität der Demonstrationen sowie die Variabilität in den Ergebnissen aufgrund unterschiedlicher Stoppkriterien, die durch unterschiedliche Ziele im Trainings- und Evaluierungsprozess bedingt sind. Zudem beleuchten wir Chancen für das Lernen aus menschlichen Datensätzen, wie beispielsweise die Fähigkeit, effiziente Politiken für anspruchsvolle, mehrstufige Aufgaben zu erlernen, die jenseits des aktuellen Leistungsniveaus etablierter Verstärkungslernmethoden liegen, sowie die Möglichkeit, nahtlos auf natürliche, realweltbasierte Manipulationsszenarien zu skalieren, in denen lediglich rohe Sinnessignale zur Verfügung stehen. Wir haben unsere Datensätze sowie alle Algorithmusimplementierungen öffentlich zugänglich gemacht, um zukünftige Forschung und faire Vergleiche beim Lernen aus menschlichen Demonstrationen zu fördern. Der Codebase, die Datensätze, trainierte Modelle und weitere Ressourcen sind unter https://arise-initiative.github.io/robomimic-web/ verfügbar.

Was bei der Lernphase aus offline menschlichen Demonstrationen für die Robotermanipulation von Bedeutung ist | Neueste Forschungsarbeiten | HyperAI