2일 전

훈위안월드 1.0: 단어나 픽셀로부터 몰입감 있고 탐색 가능하며 상호작용 가능한 3차원 세계 생성

HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo

논문 세부 정보 보기 View Code

초록

텍스트나 이미지에서 몰입감 있고 플레이 가능한 3D 세계를 생성하는 것은 컴퓨터 비전 및 그래픽스 분야에서 여전히 근본적인 도전 과제로 남아 있다. 기존의 세계 생성 기법은 일반적으로 두 가지 범주로 나뉜다. 하나는 풍부한 다양성을 제공하지만 3D 일관성과 렌더링 효율성이 부족한 영상 기반 방법이고, 다른 하나는 기하학적 일관성은 제공하지만 제한된 학습 데이터와 메모리 비효율적인 표현 방식으로 인해 어려움을 겪는 3D 기반 방법이다. 이러한 한계를 극복하기 위해, 본 연구에서는 텍스트 및 이미지 조건에서 몰입감 있고 탐색 가능하며 상호작용 가능한 3D 장면을 생성할 수 있는 혁신적인 프레임워크인 HunyuanWorld 1.0을 제안한다. 본 방법은 세 가지 주요 장점을 갖는다. 첫째, 원형(팬노라마) 세계 프록시를 활용하여 360° 몰입형 경험을 제공한다. 둘째, 메시 내보내기 기능을 통해 기존 컴퓨터 그래픽스 파이프라인과 원활한 호환성을 보장한다. 셋째, 분리된 객체 표현을 통해 보강된 상호작용성을 가능하게 한다. 본 프레임워크의 핵심은 원형 이미지를 360° 세계 프록시로 활용하여 의미 인식 기반의 세계 분해 및 재구성에 기여하는 의미층 구조를 가진 3D 메시 표현 방식이다. 이를 통해 다양한 3D 세계를 생성할 수 있다. 광범위한 실험을 통해 제안한 방법이 일관성 있고 탐색 가능하며 상호작용 가능한 3D 세계 생성에서 최신 기술 수준의 성능을 달성함을 입증하였으며, 가상현실, 물리 시뮬레이션, 게임 개발, 인터랙티브 콘텐츠 제작 등 다양한 응용 분야에서 유용한 가능성을 보여주었다.