HyperAI
vor 10 Tagen

CodeDiffuser: Aufmerksamkeitsverstärkte Diffusionspolitik durch VLM-generierten Code für Anweisungsambiguität

Guang Yin, Yitong Li, Yixuan Wang, Dale McConachie, Paarth Shah, Kunimatsu Hashimoto, Huan Zhang, Katherine Liu, Yunzhu Li
CodeDiffuser: Aufmerksamkeitsverstärkte Diffusionspolitik durch VLM-generierten Code für Anweisungsambiguität
Abstract

Natürliche Sprachanweisungen für robotergesteuerte Manipulationsaufgaben weisen oft Ambiguität und Unbestimmtheit auf. Zum Beispiel kann die Anweisung „Hänge eine Tasse am Tassenbaum auf“ mehrere gültige Aktionen beinhalten, wenn es mehrere Tassen und Zweige gibt, von denen ausgewählt werden kann. Bestehende sprachbedingte Strategien basieren in der Regel auf End-to-End-Modellen, die hochstufiges semantisches Verständnis und niedrigstufige Aktionsgenerierung gemeinsam behandeln. Dies kann aufgrund des Mangels an Modularität und Interpretierbarkeit zu suboptimaler Leistung führen. Um diese Herausforderungen anzugehen, stellen wir einen neuen Roboter-Manipulationsrahmen vor, der Aufgaben erfüllen kann, die durch potenziell ambigue natürliche Sprache spezifiziert sind. Dieser Rahmen verwendet ein Visio-Linguistisches Modell (VLM), um abstrakte Konzepte in natürlichen Sprachanweisungen zu interpretieren und taskspezifischen Code zu generieren – eine interpretierbare und ausführbare Zwischendarstellung. Der generierte Code interagiert mit dem Wahrnehmungsmodul, um 3D-Aufmerksamkeitskarten zu erstellen, die relevante Taskbereiche durch Integration räumlicher und semantischer Informationen hervorheben und so Ambiguitäten in den Anweisungen effektiv auflösen. Durch umfangreiche Experimente identifizieren wir wesentliche Einschränkungen aktueller Imitationslernenmethoden, wie zum Beispiel eine schlechte Anpassung an sprachliche und umwelthafte Variationen. Wir zeigen, dass unser Ansatz bei anspruchsvollen Manipulationsaufgaben hervorragt, die sprachliche Ambiguität, kontaktreiche Manipulation und Mehrgegenstandsinteraktionen betreffen.