Command Palette
Search for a command to run...
Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

摘要
大型语言模型依赖于互联网规模的文本数据,但具身人工智能(embodied AI)仍受限于物理轨迹采集所带来的高昂成本。桌面环境——尤其是电子游戏——提供了一个极具吸引力的替代方案:它们能够在大规模下提供丰富的感知-运动交互,同时保持具身学习所必需的结构化观测-动作关联。我们提出了D2E(Desktop to Embodied AI)框架,证明桌面交互可作为机器人具身AI任务的有效预训练基础。与以往局限于特定领域(如针对《我的世界》的VPT)或数据封闭的方案(如SIMA)不同,D2E建立了一条从可扩展的桌面数据采集到具身领域验证迁移的完整技术链条。本框架包含三个核心组件:(1)OWA工具包,将多样化的桌面交互统一为标准化格式,并实现152倍的数据压缩;(2)通用型IDM(Generalist-IDM),通过基于时间戳的事件预测,在未见过的游戏场景中实现强大的零样本泛化能力,从而支持互联网规模的伪标签生成;(3)VAPT,用于将桌面预训练的表征迁移至真实世界的操作与导航任务中。基于超过1300小时的数据(包括259小时的人类示范数据和1000多小时的伪标签游戏数据),我们在LIBERO操作任务上实现了96.6%的成功率,在CANVAS导航基准测试中达到83.3%的成功率。实验结果验证了数字交互中的感知-运动基元具备足够的不变性,能够有意义地迁移到物理具身任务中,从而确立桌面预训练作为机器人领域一项切实可行的新范式。我们已将全部研究成果公开,包括OWA工具包、人类采集与伪标签数据集,以及VAPT训练模型,均可在 https://worv-ai.github.io/d2e/ 获取。