Command Palette
Search for a command to run...
D2E: Skalierung der vision-aktionsspezifischen Vortrainierung auf Desktop-Daten zur Übertragung auf eingebettete KI
Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

Abstract
Große Sprachmodelle nutzen Internet-skalare Textdaten, während embodied AI weiterhin durch die prohibitiv hohen Kosten der physischen Trajektorienerhebung eingeschränkt bleibt. Desktop-Umgebungen – insbesondere Computerspiele – bieten eine überzeugende Alternative: Sie ermöglichen skalierbare, reichhaltige sensorimotorische Interaktionen und bewahren gleichzeitig die strukturierte Beobachtungs-Aktions-Verkettung, die für das embodied Lernen entscheidend ist. Wir präsentieren D2E (Desktop to Embodied AI), einen Rahmen, der zeigt, dass Desktop-Interaktionen als effektive Vortrainingsbasis für Aufgaben der Robotik-embodied AI dienen können. Im Gegensatz zu vorherigen Ansätzen, die auf spezifische Domänen beschränkt waren (z. B. VPT für Minecraft) oder Daten proprietär hielten (z. B. SIMA), etabliert D2E eine vollständige Pipeline von skalierbarer Desktop-Datensammlung bis hin zur verifizierten Übertragung in embodied Domänen. Unser Framework besteht aus drei Komponenten: (1) dem OWA-Toolkit, das unterschiedliche Desktop-Interaktionen in ein standardisiertes Format integriert und dabei eine Kompression von 152× erreicht, (2) dem Generalist-IDM, der starke Zero-Shot-Verallgemeinerung über bisher unbekannte Spiele durch zeitsynchronisierte Ereignisvorhersage erreicht und damit Internet-skalare Pseudolabeling ermöglicht, sowie (3) VAPT, das repräsentative Merkmale aus Desktop-Vortrainings auf physische Manipulations- und Navigationsaufgaben überträgt. Mit 1,3 K+ Stunden Daten (259 Stunden menschlicher Demonstrationen und über 1 K Stunden pseudolabelten Spielspiels) erzielen wir eine Gesamterfolgsrate von 96,6 % auf den LIBERO-Manipulations- und 83,3 % auf den CANVAS-Navigationsbenchmarks. Dies bestätigt, dass sensorimotorische Primitiven in digitalen Interaktionen ausreichend invariant sind, um sinnvoll auf physische embodied Aufgaben übertragen zu werden, und etabliert das Desktop-Vortraining als praktikable Paradigma für die Robotik. Alle unsere Arbeiten werden öffentlich zugänglich gemacht, einschließlich des OWA-Toolkits, der Datensätze aus menschlich gesammelten und pseudolabelten Interaktionen sowie der VAPT-trainierten Modelle unter https://worv-ai.github.io/d2e/
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.