HyperAIHyperAI

Command Palette

Search for a command to run...

CodeDiffuser: Aufmerksamkeitsverstärkte Diffusionspolitik durch VLM-generierten Code für Anweisungsambiguität

Guang Yin Yitong Li Yixuan Wang Dale McConachie Paarth Shah Kunimatsu Hashimoto Huan Zhang Katherine Liu Yunzhu Li

Zusammenfassung

Natürliche Sprachanweisungen für robotergesteuerte Manipulationsaufgaben weisen oft Ambiguität und Unbestimmtheit auf. Zum Beispiel kann die Anweisung „Hänge eine Tasse am Tassenbaum auf“ mehrere gültige Aktionen beinhalten, wenn es mehrere Tassen und Zweige gibt, von denen ausgewählt werden kann. Bestehende sprachbedingte Strategien basieren in der Regel auf End-to-End-Modellen, die hochstufiges semantisches Verständnis und niedrigstufige Aktionsgenerierung gemeinsam behandeln. Dies kann aufgrund des Mangels an Modularität und Interpretierbarkeit zu suboptimaler Leistung führen. Um diese Herausforderungen anzugehen, stellen wir einen neuen Roboter-Manipulationsrahmen vor, der Aufgaben erfüllen kann, die durch potenziell ambigue natürliche Sprache spezifiziert sind. Dieser Rahmen verwendet ein Visio-Linguistisches Modell (VLM), um abstrakte Konzepte in natürlichen Sprachanweisungen zu interpretieren und taskspezifischen Code zu generieren – eine interpretierbare und ausführbare Zwischendarstellung. Der generierte Code interagiert mit dem Wahrnehmungsmodul, um 3D-Aufmerksamkeitskarten zu erstellen, die relevante Taskbereiche durch Integration räumlicher und semantischer Informationen hervorheben und so Ambiguitäten in den Anweisungen effektiv auflösen. Durch umfangreiche Experimente identifizieren wir wesentliche Einschränkungen aktueller Imitationslernenmethoden, wie zum Beispiel eine schlechte Anpassung an sprachliche und umwelthafte Variationen. Wir zeigen, dass unser Ansatz bei anspruchsvollen Manipulationsaufgaben hervorragt, die sprachliche Ambiguität, kontaktreiche Manipulation und Mehrgegenstandsinteraktionen betreffen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp