Command Palette
Search for a command to run...
RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

Abstract
Neue Fortschritte in multimodalen Großsprachmodellen (Multimodal Large Language Models, MLLMs) haben einen schnellen Fortschritt bei Vision-Language-Action-Modellen (VLA) für die robotergestützte Manipulation ermöglicht. Obwohl diese Ansätze in vielen Szenarien wirksam sind, beruhen sie bisher weitgehend auf expliziten Anweisungen. In der realen Welt geben Menschen jedoch selten direkte Befehle. Für eine effektive Zusammenarbeit müssen Roboter Benutzerabsichten proaktiv erkennen. In dieser Arbeit führen wir sogenannte cross-modal kontextuelle Anweisungen ein – einen neuen Ansatz, bei dem Absichten aus gesprochener Sprache, Umgebungsgeräuschen und visuellen Hinweisen abgeleitet werden, anstatt aus expliziten Befehlen. Um diesen neuen Ansatz zu adressieren, stellen wir RoboOmni vor, einen Perceiver-Thinker-Talker-Executor-Framework auf Basis end-to-end-omnimodaler Großsprachmodelle, der die Absichtserkennung, die Bestätigung der Interaktion und die Aktionsexekution vereint. RoboOmni kombiniert auditiv- und visuelle Signale spatiotemporal, um eine robuste Absichtserkennung zu gewährleisten, und unterstützt gleichzeitig direkte Sprachinteraktionen. Um den Mangel an Trainingsdaten für proaktive Absichtserkennung im Bereich der robotergestützten Manipulation zu überwinden, entwickeln wir OmniAction – eine Datenbank mit 140.000 Episoden, mehr als 5.000 Sprechern, 2.400 Ereignisgeräuschen, 640 Hintergrundumgebungen und sechs Arten kontextueller Anweisungen. Experimente in simulierten und realen Umgebungen zeigen, dass RoboOmni sowohl Text- als auch ASR-basierte Baselines hinsichtlich Erfolgsrate, Inferenzgeschwindigkeit, Absichtserkennung und proaktiver Unterstützung übertrifft.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.