Hunyuan-GameCraft: 하이브리드 역사 조건을 활용한 고동적 상호작용 게임 비디오 생성

최근 확산 기반 및 제어 가능한 비디오 생성 기술의 발전으로 고품질이고 시간적으로 일관된 비디오 합성이 가능해졌으며, 이는 몰입형 인터랙티브 게임 경험의 기초를 마련하였습니다. 그러나 현재의 방법들은 동적 요소, 일반성, 장기 일관성, 효율성 등의 측면에서 한계를 가지고 있어 다양한 게임 플레이 비디오를 생성하는 능력이 제한됩니다. 이러한 문제점을 해결하기 위해 우리는 게임 환경에서 고동적인 인터랙티브 비디오 생성을 위한 새로운 프레임워크인 Hunyuan-GameCraft(혼원-게임크래프트)를 소개합니다.세부적인 행동 제어를 달성하기 위해, 우리는 표준 키보드와 마우스 입력을 공유된 카메라 표현 공간으로 통합하여 다양한 카메라 및 이동 연산 간의 부드러운 보간(interpolation)을 용이하게 하였습니다. 그런 다음, 게임 장면 정보를 유지하면서 비디오 시퀀스를 자동 회귀적으로 확장할 수 있는 하이브리드 과거 조건부 학습 전략을 제안하였습니다. 또한 추론 효율성과 플레이 가능성(playability)을 향상시키기 위해 모델 축소(distillation)를 통해 계산 부담을 줄이면서도 장시간 시퀀스에 걸쳐 일관성을 유지하도록 하여 복잡한 인터랙티브 환경에서 실시간 배포가 가능하도록 만들었습니다.모델은 100개 이상의 AAA 게임에서 100만 건 이상의 게임 플레이 녹화 데이터로 구성된 대규모 데이터셋 위에서 학습되었습니다. 이를 통해 광범위한 커버리지와 다양성을 보장하였고, 이후 정밀하게 주석 처리된 합성 데이터셋 위에서 미세 조정(fine-tuning)을 거쳐 정확도와 제어력을 향상시켰습니다. 신중히 큐레이팅된 게임 장면 데이터는 시각적 충실도, 현실감 및 행동 제어 능력을 크게 개선하였습니다. 광범위한 실험 결과 Hunyuan-GameCraft(혼원-게임크래프트)가 기존 모델들보다 크게 우수함을 입증하였으며, 인터랙티브 게임 비디오 생성의 현실감과 플레이 가능성을 크게 발전시켰습니다.