HyperAI초신경
14일 전

Matrix-Game: 상호작용 세계 기초 모델

Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
Matrix-Game: 상호작용 세계 기초 모델
초록

우리는 Matrix-Game을 소개합니다. 이는 제어 가능한 게임 세계 생성을 위한 대화형 월드 기반 모델입니다. Matrix-Game은 환경 이해를 위한 대규모 비라벨 사전 학습과, 상호작용 비디오 생성을 위한 액션 라벨 학습으로 구성된 두 단계 파이프라인을 통해 훈련됩니다. 이를 지원하기 위해, 우리는 2,700시간 이상의 비라벨 게임 플레이 비디오 클립과 1,000시간 이상의 고품질 라벨 클립(세부적인 키보드 및 마우스 액션 주석 포함)으로 구성된 포괄적인 Minecraft 데이터셋인 Matrix-Game-MC를 큐레이트했습니다.본 모델은 참조 이미지, 운동 맥락, 사용자 액션에 조건부로 제어 가능한 이미지-투-월드 생성 패러다임을 채택합니다. 170억 개 이상의 매개변수를 가진 Matrix-Game은 캐릭터 액션과 카메라 움직임에 대한 정밀한 제어가 가능하며, 높은 시각적 품질과 시간적 일관성을 유지합니다. 성능 평가를 위해, 우리는 Minecraft 세계 생성에서 시각적 품질, 시간적 품질, 액션 제어 가능성, 물리 법칙 이해 등을 측정하는 통합 벤치마크인 GameWorld Score를 개발했습니다.범위넓은 실험 결과는 Matrix-Game이 모든 지표에서 이전 오픈 소스 Minecraft 세계 모델(Oasis와 MineWorld 포함)보다 일관적으로 우수하다는 것을 보여주며, 특히 제어 가능성과 물리적 일관성에서 큰 개선을 보였습니다. 더불어 이중맹검 인간 평가는 Matrix-Game의 우수성을 더욱 확인해주며, 다양한 게임 시나리오에서 감지적으로 실제적이면서도 정밀하게 제어 가능한 비디오를 생성할 수 있는 능력을 강조합니다.미래의 상호작용 이미지-투-월드 생성 연구를 지원하기 위해, 우리는 Matrix-Game 모델 가중치와 GameWorld Score 벤치마크를 오픈 소스로 제공할 예정입니다. 자세한 정보는 https://github.com/SkyworkAI/Matrix-Game에서 확인하실 수 있습니다.