HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

Abstract

Die menschliche Fähigkeit, multimodale Schlussfolgerungen und physische Interaktionen in der offenen Welt nahtlos zu verbinden, stellt ein zentrales Ziel für allgemein einsetzbare, körperhafte intelligente Systeme dar. Neuere Vision-Sprache-Aktion-(VLA-)Modelle, die auf großen Datensätzen aus Roboterdaten und visuellen-Textdaten gemeinsam trainiert wurden, haben beachtliche Fortschritte im Bereich der allgemeinen Robotiksteuerung erzielt. Dennoch erreichen sie weiterhin nicht die menschliche Flexibilität bei der verflochtenen Ausführung von Schlussfolgerungen und Interaktionen. In dieser Arbeit stellen wir EO-Robotik vor, bestehend aus dem Modell EO-1 und dem Datensatz EO-Data1.5M. EO-1 ist ein einheitliches körperhaftes Grundmodell, das durch eine verflochtene Vortrainierung mit visuellen, sprachlichen und aktionsbasierten Eingaben herausragende Leistung bei multimodaler körperhafter Schlussfolgerung und Robotiksteuerung erzielt. Die Entwicklung von EO-1 basiert auf zwei zentralen Säulen: (i) einer einheitlichen Architektur, die multimodale Eingaben unabhängig von ihrer Art (Bild, Text, Video, Aktion) verarbeitet, und (ii) einem umfangreichen, hochwertigen multimodalen Datensatz für körperhafte Schlussfolgerung, EO-Data1.5M, der über 1,5 Millionen Samples enthält und besonderes Augenmerk auf die verflochtene Verarbeitung von visuellen, sprachlichen und aktionsbasierten Informationen legt. EO-1 wird durch eine synergetische Kombination von autoregressiver Dekodierung und Flow-Matching-Denoising auf Basis von EO-Data1.5M trainiert, was eine nahtlose Generierung von Roboteraktionen und eine umfassende multimodale körperhafte Schlussfolgerung ermöglicht. Umfangreiche Experimente belegen die Wirksamkeit des verflochtenen Lernansatzes aus Vision, Sprache und Aktion für das Verständnis und die Generalisierung in offenen Umgebungen, wie sie sich in einer Vielzahl von Aufgaben mit langer Horizontzeit und feinmotorischer Manipulation an mehreren unterschiedlichen Robotertypen nachweisen lassen. Dieser Artikel beschreibt ausführlich die Architektur von EO-1, die Datensammlungsstrategie für EO-Data1.5M sowie die Trainingsmethodik und liefert wertvolle Erkenntnisse für die Entwicklung fortschrittlicher körperhafter Grundmodelle.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung | Forschungsarbeiten | HyperAI