Back to Headlines

테encent이 선보인 '허뉴안월드-보이저': 카메라 경로 조절 가능하고 3D 일관성 유지하는 영상 생성 모델

6일 전

텐센트 훙위안이 개발한 '훙위안월드-보이저(HunyuanWorld-Voyager)'는 단일 이미지와 사용자 지정 카메라 경로를 입력받아 세계 일관성 있는 3D 포인트 클라우드 시퀀스를 생성하는 영상 확산 모델이다. 이 모델은 실시간 3D 재구성에 적합한 RGB와 깊이 영상 쌍을 동시에 생성하며, 사용자가 정한 카메라 경로를 따라 3D 공간을 탐색하는 동영상을 제작할 수 있다. 핵심 기술로는 세계 일관성 영상 생성과 장거리 시나리오 확장 기능을 갖춘 효율적인 월드 캐시 시스템을 도입했으며, 실제 영상과 유니티 기반 합성 영상을 결합한 10만 개 이상의 데이터셋을 활용해 훈련했다. 성능 평가에서 WorldScore 기준 77.62점으로 기존 모델 대비 우수한 3D 일관성과 시각적 품질을 보였다. 모델은 540p 해상도에서 60GB GPU 메모리가 필요하며, xDiT 기반 멀티 GPU 병렬 추론을 지원해 빠른 생성이 가능하다. 또한 Gradio 기반 데모와 데이터 엔진도 공개해 연구 및 개발자 활용을 돕고 있다.

Related Links