HyperAIHyperAI
vor einem Tag

ODYSSEY: Offene Welt Erkundung und Manipulation von Viertelfüßlern für langfristige Aufgaben

Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
ODYSSEY: Offene Welt Erkundung und Manipulation von Viertelfüßlern für langfristige Aufgaben
Abstract

Sprachgesteuerte, langfristige mobile Manipulation stellt seit langem eine herausfordernde Aufgabe im Bereich der eingebetteten semantischen Reasoning, verallgemeinerbarer Manipulation und adaptiver Fortbewegung dar. Drei grundlegende Einschränkungen behindern den Fortschritt: Erstens, obwohl große Sprachmodelle die räumliche Reasoning und Aufgabenplanung durch semantische Vorwissen verbessert haben, bleiben bestehende Implementierungen weiterhin auf Tischszenarien beschränkt und adressieren nicht die eingeschränkte Wahrnehmung und begrenzten Aktuatorbereiche mobiler Plattformen. Zweitens zeigen aktuelle Manipulationsstrategien unzureichende Verallgemeinerungsfähigkeit gegenüber der Vielzahl an Objektkonfigurationen, die in offenen, realen Umwelten auftreten. Drittens bleibt die gleichzeitige Erfüllung der beiden zentralen Anforderungen – hohe Manövrierfähigkeit der Plattform und präzise Steuerung des Endeffektors in strukturierten, unstrukturierten Umgebungen – trotz ihrer praktischen Relevanz bisher unterforscht.In dieser Arbeit präsentieren wir ODYSSEY, einen einheitlichen Rahmen für mobile Manipulation speziell für agile vielfüßige Roboter mit Greifarmen, der hochlevelige Aufgabenplanung nahtlos mit tiefleveliger Ganzkörpersteuerung verbindet. Um die Herausforderung der egozentrischen Wahrnehmung in sprachgesteuerten Aufgaben zu bewältigen, führen wir einen hierarchischen Planer ein, der von einem Vision-Sprache-Modell angetrieben wird und eine langfristige Instruktionen-Zerlegung sowie präzise Aktionsexekution ermöglicht. Auf Kontroll-Ebene erreicht unsere neuartige Ganzkörperstrategie eine robuste Koordination auch auf anspruchsvollen Geländen. Darüber hinaus stellen wir die erste Benchmark für langfristige mobile Manipulation vor, die eine Vielzahl von Innen- und Außenumgebungen evaluiert. Durch erfolgreiche Sim-to-Real-Übertragung demonstrieren wir die Verallgemeinerungsfähigkeit und Robustheit des Systems in realen Anwendungen und unterstreichen die praktische Relevanz von vielfüßigen Manipulatoren in unstrukturierten Umgebungen. Unser Werk trägt zur Machbarkeit allgemeiner Roboterassistenten bei, die komplexe, dynamische Aufgaben bewältigen können. Projektseite: https://kaijwang.github.io/odyssey.github.io/