Command Palette
Search for a command to run...

초록
우리는 인간 중심의 네이티브 키보드-마우스 입력에 기반한 통합적이고 확장 가능한 동작 공간을 갖춘 일반화 게임 에이전트인 Game-TARS를 제안한다. API나 GUI 기반 접근 방식과 달리, 이 패러다임은 운영체제(OS), 웹, 시뮬레이션 게임 등 다양한 이질적 도메인에 걸쳐 대규모 지속적 사전 훈련을 가능하게 한다. Game-TARS는 5000억 이상의 토큰에 달하는 다양한 경로 데이터와 다중모달 데이터를 기반으로 사전 훈련되었다. 주요 기술로는 인과적 혼동을 줄이기 위한 감소하는 지속적 손실(continual loss)과 추론 깊이와 추론 비용 사이의 균형을 고려한 효율적인 '스파스-사고(Sparse-Thinking)' 전략이 포함되어 있다. 실험 결과, Game-TARS는 오픈월드 마인크래프트 과제에서 이전 최고 성능(SOTA) 모델보다 약 2배 높은 성공률을 기록했으며, 익명의 웹 3D 게임에 대해선 생후 처음 접하는 인간 수준의 일반화 능력에 근접했고, FPS 벤치마크에서 GPT-5, Gemini-2.5-Pro, Claude-4-Sonnet을 모두 상회하는 성능을 보였다. 훈련 시간과 테스트 시간 모두에서의 확장성 결과는, 통합된 동작 공간이 게임 간 및 다중모달 데이터로 확장될 때도 지속적인 성능 향상을 유지함을 입증한다. 본 연구 결과는 단순하면서도 확장 가능한 동작 표현 방식과 대규모 사전 훈련을 결합함으로써, 광범위한 컴퓨터 사용 능력을 갖춘 일반화 에이전트로 나아가는 유망한 길을 제시한다.