Command Palette
Search for a command to run...
Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

초록
대규모 언어 모델은 인터넷 규모의 텍스트 데이터를 활용하지만, 육체적 존재를 갖춘 인공지능(AI)은 물리적 궤적 수집에 드는 막대한 비용으로 인해 여전히 제약을 받고 있다. 데스크톱 환경, 특히 게임 환경은 흥미로운 대안을 제공한다. 이러한 환경은 구조화된 관찰-행동 상호작용을 유지하면서도 대규모로 풍부한 감각운동적 상호작용을 가능하게 하기 때문이다. 본 연구에서는 데스크톱 상호작용이 로봇 기반의 육체적 존재 AI 작업에 효과적인 사전 학습 기반으로 활용될 수 있음을 보여주는 D2E(Desktop to Embodied AI) 프레임워크를 제안한다. 기존의 연구들이 특정 도메인에 국한되거나(예: Minecraft용 VPT), 데이터를 사적 소유로 유지하는 경우(예: SIMA)에 머물러 있었던 것과 달리, D2E는 확장 가능한 데스크톱 데이터 수집부터 육체적 도메인에서의 검증된 전이에 이르는 완전한 파이프라인을 구축한다. 본 프레임워크는 세 가지 구성 요소로 구성된다: (1) 다양한 데스크톱 상호작용을 표준화된 형식으로 통합하는 OWA 툴킷(152배의 압축률을 달성), (2) 타임스탬프 기반 이벤트 예측을 통해 미처 경험하지 않은 게임들에 대해 강력한 제로샷 일반화 성능을 달성하는 Generalist-IDM, 이로 인해 인터넷 규모의 가상 레이블링이 가능해짐, (3) 데스크톱 사전 학습된 표현을 실제 조작 및 탐색 작업으로 전이하는 VAPT. 인간의 시연 데이터 259시간과 가상 레이블링된 게임 플레이 데이터 1,000시간 이상을 포함한 총 1,300시간 이상의 데이터를 사용하여, LIBERO 조작 벤치마크에서 96.6%의 성공률, CANVAS 탐색 벤치마크에서 83.3%의 성공률을 달성하였다. 이는 디지털 상호작용 내의 감각운동적 기본 요소가 물리적 육체적 작업으로 의미 있는 전이를 가능하게 할 정도로 충분한 불변성을 지닌다는 것을 입증하며, 로봇 공학 분야에서 데스크톱 사전 학습이 실용적인 패러다임으로 자리 잡을 수 있음을 보여준다. 본 연구에서 개발한 모든 자료를 공개할 예정이며, OWA 툴킷, 인간이 수집한 데이터셋과 가상 레이블링된 데이터셋, VAPT로 학습된 모델 등은 https://worv-ai.github.io/d2e/ 에서 공개될 예정이다.