vor 2 Monaten

EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

Details der Forschungsarbeit anzeigen Code anzeigen

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan

EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

Abstract

Die menschliche Fähigkeit, multimodale Schlussfolgerungen und physische Interaktionen in der offenen Welt nahtlos zu verbinden, stellt ein zentrales Ziel für allgemein einsetzbare, körperhafte intelligente Systeme dar. Neuere Vision-Sprache-Aktion-(VLA-)Modelle, die auf großen Datensätzen aus Roboterdaten und visuellen-Textdaten gemeinsam trainiert wurden, haben beachtliche Fortschritte im Bereich der allgemeinen Robotiksteuerung erzielt. Dennoch erreichen sie weiterhin nicht die menschliche Flexibilität bei der verflochtenen Ausführung von Schlussfolgerungen und Interaktionen. In dieser Arbeit stellen wir EO-Robotik vor, bestehend aus dem Modell EO-1 und dem Datensatz EO-Data1.5M. EO-1 ist ein einheitliches körperhaftes Grundmodell, das durch eine verflochtene Vortrainierung mit visuellen, sprachlichen und aktionsbasierten Eingaben herausragende Leistung bei multimodaler körperhafter Schlussfolgerung und Robotiksteuerung erzielt. Die Entwicklung von EO-1 basiert auf zwei zentralen Säulen: (i) einer einheitlichen Architektur, die multimodale Eingaben unabhängig von ihrer Art (Bild, Text, Video, Aktion) verarbeitet, und (ii) einem umfangreichen, hochwertigen multimodalen Datensatz für körperhafte Schlussfolgerung, EO-Data1.5M, der über 1,5 Millionen Samples enthält und besonderes Augenmerk auf die verflochtene Verarbeitung von visuellen, sprachlichen und aktionsbasierten Informationen legt. EO-1 wird durch eine synergetische Kombination von autoregressiver Dekodierung und Flow-Matching-Denoising auf Basis von EO-Data1.5M trainiert, was eine nahtlose Generierung von Roboteraktionen und eine umfassende multimodale körperhafte Schlussfolgerung ermöglicht. Umfangreiche Experimente belegen die Wirksamkeit des verflochtenen Lernansatzes aus Vision, Sprache und Aktion für das Verständnis und die Generalisierung in offenen Umgebungen, wie sie sich in einer Vielzahl von Aufgaben mit langer Horizontzeit und feinmotorischer Manipulation an mehreren unterschiedlichen Robotertypen nachweisen lassen. Dieser Artikel beschreibt ausführlich die Architektur von EO-1, die Datensammlungsstrategie für EO-Data1.5M sowie die Trainingsmethodik und liefert wertvolle Erkenntnisse für die Entwicklung fortschrittlicher körperhafter Grundmodelle.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan5 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan