Command Palette
Search for a command to run...
EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

Abstract
Die menschliche Fähigkeit, multimodale Schlussfolgerungen und physische Interaktionen in der offenen Welt nahtlos zu verbinden, stellt ein zentrales Ziel für allgemein einsetzbare, körperhafte intelligente Systeme dar. Neuere Vision-Sprache-Aktion-(VLA-)Modelle, die auf großen Datensätzen aus Roboterdaten und visuellen-Textdaten gemeinsam trainiert wurden, haben beachtliche Fortschritte im Bereich der allgemeinen Robotiksteuerung erzielt. Dennoch erreichen sie weiterhin nicht die menschliche Flexibilität bei der verflochtenen Ausführung von Schlussfolgerungen und Interaktionen. In dieser Arbeit stellen wir EO-Robotik vor, bestehend aus dem Modell EO-1 und dem Datensatz EO-Data1.5M. EO-1 ist ein einheitliches körperhaftes Grundmodell, das durch eine verflochtene Vortrainierung mit visuellen, sprachlichen und aktionsbasierten Eingaben herausragende Leistung bei multimodaler körperhafter Schlussfolgerung und Robotiksteuerung erzielt. Die Entwicklung von EO-1 basiert auf zwei zentralen Säulen: (i) einer einheitlichen Architektur, die multimodale Eingaben unabhängig von ihrer Art (Bild, Text, Video, Aktion) verarbeitet, und (ii) einem umfangreichen, hochwertigen multimodalen Datensatz für körperhafte Schlussfolgerung, EO-Data1.5M, der über 1,5 Millionen Samples enthält und besonderes Augenmerk auf die verflochtene Verarbeitung von visuellen, sprachlichen und aktionsbasierten Informationen legt. EO-1 wird durch eine synergetische Kombination von autoregressiver Dekodierung und Flow-Matching-Denoising auf Basis von EO-Data1.5M trainiert, was eine nahtlose Generierung von Roboteraktionen und eine umfassende multimodale körperhafte Schlussfolgerung ermöglicht. Umfangreiche Experimente belegen die Wirksamkeit des verflochtenen Lernansatzes aus Vision, Sprache und Aktion für das Verständnis und die Generalisierung in offenen Umgebungen, wie sie sich in einer Vielzahl von Aufgaben mit langer Horizontzeit und feinmotorischer Manipulation an mehreren unterschiedlichen Robotertypen nachweisen lassen. Dieser Artikel beschreibt ausführlich die Architektur von EO-1, die Datensammlungsstrategie für EO-Data1.5M sowie die Trainingsmethodik und liefert wertvolle Erkenntnisse für die Entwicklung fortschrittlicher körperhafter Grundmodelle.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.