HyperAIHyperAI

Command Palette

Search for a command to run...

vor 6 Tagen

RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

Abstract

Neue Fortschritte in multimodalen Großsprachmodellen (Multimodal Large Language Models, MLLMs) haben einen schnellen Fortschritt bei Vision-Language-Action-Modellen (VLA) für die robotergestützte Manipulation ermöglicht. Obwohl diese Ansätze in vielen Szenarien wirksam sind, beruhen sie bisher weitgehend auf expliziten Anweisungen. In der realen Welt geben Menschen jedoch selten direkte Befehle. Für eine effektive Zusammenarbeit müssen Roboter Benutzerabsichten proaktiv erkennen. In dieser Arbeit führen wir sogenannte cross-modal kontextuelle Anweisungen ein – einen neuen Ansatz, bei dem Absichten aus gesprochener Sprache, Umgebungsgeräuschen und visuellen Hinweisen abgeleitet werden, anstatt aus expliziten Befehlen. Um diesen neuen Ansatz zu adressieren, stellen wir RoboOmni vor, einen Perceiver-Thinker-Talker-Executor-Framework auf Basis end-to-end-omnimo­daler Großsprachmodelle, der die Absichtserkennung, die Bestätigung der Interaktion und die Aktionsexekution vereint. RoboOmni kombiniert auditiv- und visuelle Signale spatiotemporal, um eine robuste Absichtserkennung zu gewährleisten, und unterstützt gleichzeitig direkte Sprachinteraktionen. Um den Mangel an Trainingsdaten für proaktive Absichtserkennung im Bereich der robotergestützten Manipulation zu überwinden, entwickeln wir OmniAction – eine Datenbank mit 140.000 Episoden, mehr als 5.000 Sprechern, 2.400 Ereignisgeräuschen, 640 Hintergrundumgebungen und sechs Arten kontextueller Anweisungen. Experimente in simulierten und realen Umgebungen zeigen, dass RoboOmni sowohl Text- als auch ASR-basierte Baselines hinsichtlich Erfolgsrate, Inferenzgeschwindigkeit, Absichtserkennung und proaktiver Unterstützung übertrifft.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext | Forschungsarbeiten | HyperAI