HunyuanWorld-1.0: 3D 세계 생성 모델

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)

초록

텍스트나 이미지로부터 몰입감 있고 플레이 가능한 3D 세계를 생성하는 것은 컴퓨터 비전 및 그래픽스 분야에서 여전히 핵심적인 도전 과제이다. 기존의 세계 생성 기법은 일반적으로 두 가지 유형으로 나뉜다. 하나는 풍부한 다양성을 제공하지만 3D 일관성과 렌더링 효율성이 부족한 영상 기반 방법이고, 다른 하나는 기하학적 일관성은 제공하지만 훈련 데이터의 제한과 메모리 비효율적인 표현 방식으로 인해 어려움을 겪는 3D 기반 방법이다. 이러한 한계를 해결하기 위해, 본 연구에서는 텍스트 및 이미지 조건에서 몰입감 있고 탐색 가능하며 상호작용 가능한 3D 장면을 생성할 수 있는 새로운 프레임워크인 HunyuanWorld 1.0을 제안한다. 본 방법은 세 가지 핵심적 장점을 갖는다. 첫째, 원형 세계 프록시를 활용한 360° 몰입 경험 제공; 둘째, 기존 컴퓨터 그래픽스 파이프라인과 원활한 호환성을 보장하는 메시 내보내기 기능; 셋째, 증강된 상호작용을 가능하게 하는 객체 표현의 분리 구조. 본 프레임워크의 핵심은 원형 이미지를 360° 세계 프록시로 활용하여 의미 정보를 고려한 세계 분해 및 재구성이 가능한 의미 계층적 3D 메시 표현 방식이다. 이를 통해 다양한 3D 세계를 생성할 수 있다. 광범위한 실험을 통해 제안한 방법이 일관성 있고 탐색 가능하며 상호작용 가능한 3D 세계 생성에서 최상의 성능을 달성함을 입증하였으며, 가상현실(VR), 물리 시뮬레이션, 게임 개발, 상호작용 콘텐츠 제작 등 다양한 응용 분야에 유연하게 활용될 수 있음을 보였다.

소스 PDF