vor 6 Tagen

RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

Details der Forschungsarbeit anzeigen Code anzeigen

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu

RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

Abstract

Neue Fortschritte in multimodalen Großsprachmodellen (Multimodal Large Language Models, MLLMs) haben einen schnellen Fortschritt bei Vision-Language-Action-Modellen (VLA) für die robotergestützte Manipulation ermöglicht. Obwohl diese Ansätze in vielen Szenarien wirksam sind, beruhen sie bisher weitgehend auf expliziten Anweisungen. In der realen Welt geben Menschen jedoch selten direkte Befehle. Für eine effektive Zusammenarbeit müssen Roboter Benutzerabsichten proaktiv erkennen. In dieser Arbeit führen wir sogenannte cross-modal kontextuelle Anweisungen ein – einen neuen Ansatz, bei dem Absichten aus gesprochener Sprache, Umgebungsgeräuschen und visuellen Hinweisen abgeleitet werden, anstatt aus expliziten Befehlen. Um diesen neuen Ansatz zu adressieren, stellen wir RoboOmni vor, einen Perceiver-Thinker-Talker-Executor-Framework auf Basis end-to-end-omnimodaler Großsprachmodelle, der die Absichtserkennung, die Bestätigung der Interaktion und die Aktionsexekution vereint. RoboOmni kombiniert auditiv- und visuelle Signale spatiotemporal, um eine robuste Absichtserkennung zu gewährleisten, und unterstützt gleichzeitig direkte Sprachinteraktionen. Um den Mangel an Trainingsdaten für proaktive Absichtserkennung im Bereich der robotergestützten Manipulation zu überwinden, entwickeln wir OmniAction – eine Datenbank mit 140.000 Episoden, mehr als 5.000 Sprechern, 2.400 Ereignisgeräuschen, 640 Hintergrundumgebungen und sechs Arten kontextueller Anweisungen. Experimente in simulierten und realen Umgebungen zeigen, dass RoboOmni sowohl Text- als auch ASR-basierte Baselines hinsichtlich Erfolgsrate, Inferenzgeschwindigkeit, Absichtserkennung und proaktiver Unterstützung übertrifft.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu4 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu