vor 22 Tagen

D2E: Skalierung der vision-aktionsspezifischen Vortrainierung auf Desktop-Daten zur Übertragung auf eingebettete KI

Details der Forschungsarbeit anzeigen Code anzeigen

Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

D2E: Skalierung der vision-aktionsspezifischen Vortrainierung auf Desktop-Daten zur Übertragung auf eingebettete KI

Abstract

Große Sprachmodelle nutzen Internet-skalare Textdaten, während embodied AI weiterhin durch die prohibitiv hohen Kosten der physischen Trajektorienerhebung eingeschränkt bleibt. Desktop-Umgebungen – insbesondere Computerspiele – bieten eine überzeugende Alternative: Sie ermöglichen skalierbare, reichhaltige sensorimotorische Interaktionen und bewahren gleichzeitig die strukturierte Beobachtungs-Aktions-Verkettung, die für das embodied Lernen entscheidend ist. Wir präsentieren D2E (Desktop to Embodied AI), einen Rahmen, der zeigt, dass Desktop-Interaktionen als effektive Vortrainingsbasis für Aufgaben der Robotik-embodied AI dienen können. Im Gegensatz zu vorherigen Ansätzen, die auf spezifische Domänen beschränkt waren (z. B. VPT für Minecraft) oder Daten proprietär hielten (z. B. SIMA), etabliert D2E eine vollständige Pipeline von skalierbarer Desktop-Datensammlung bis hin zur verifizierten Übertragung in embodied Domänen. Unser Framework besteht aus drei Komponenten: (1) dem OWA-Toolkit, das unterschiedliche Desktop-Interaktionen in ein standardisiertes Format integriert und dabei eine Kompression von 152× erreicht, (2) dem Generalist-IDM, der starke Zero-Shot-Verallgemeinerung über bisher unbekannte Spiele durch zeitsynchronisierte Ereignisvorhersage erreicht und damit Internet-skalare Pseudolabeling ermöglicht, sowie (3) VAPT, das repräsentative Merkmale aus Desktop-Vortrainings auf physische Manipulations- und Navigationsaufgaben überträgt. Mit 1,3 K+ Stunden Daten (259 Stunden menschlicher Demonstrationen und über 1 K Stunden pseudolabelten Spielspiels) erzielen wir eine Gesamterfolgsrate von 96,6 % auf den LIBERO-Manipulations- und 83,3 % auf den CANVAS-Navigationsbenchmarks. Dies bestätigt, dass sensorimotorische Primitiven in digitalen Interaktionen ausreichend invariant sind, um sinnvoll auf physische embodied Aufgaben übertragen zu werden, und etabliert das Desktop-Vortraining als praktikable Paradigma für die Robotik. Alle unsere Arbeiten werden öffentlich zugänglich gemacht, einschließlich des OWA-Toolkits, der Datensätze aus menschlich gesammelten und pseudolabelten Interaktionen sowie der VAPT-trainierten Modelle unter https://worv-ai.github.io/d2e/

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

D2E: Skalierung der vision-aktionsspezifischen Vortrainierung auf Desktop-Daten zur Übertragung auf eingebettete KI

Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

Abstract

KI mit KI entwickeln

Hyper Newsletters