Command Palette
Search for a command to run...

초록
최근 3D 네이티브 생성 모델의 발전은 게임, 영화, 디자인 분야의 자산 생성을 크게 가속화하고 있다. 그러나 대부분의 기존 방법은 여전히 이미지나 텍스트 조건화에 크게 의존하며, 세밀한 다중 모달 조절 기능이 부족해 제어 가능성과 실용적 적용에 한계가 있다. 이 문제를 해결하기 위해, 우리는 Hunyuan3D 2.1 기반의 통합적인 프레임워크인 Hunyuan3D-Omni를 제안한다. 이 모델은 기존 이미지 외에도 점군(point clouds), 복셀(voxels), 경계 상자(bounding boxes), 골격 자세(skeletal pose) 전제 조건을 입력으로 수용함으로써 기하학적 구조, 위상 구조, 자세에 대한 정밀한 제어를 가능하게 한다. 각 모달리티에 대해 별도의 출력 헤드를 사용하는 기존 방식과 달리, 본 모델은 모든 조건 신호를 하나의 다중 모달 아키텍처 내에서 통합한다. 또한, 난이도 인지 샘플링 전략을 도입하여 예시당 하나의 제어 모달리티를 선택하고, 더 어려운 신호(예: 골격 자세)에 대해 샘플링을 유도하면서 쉬운 신호(예: 점군)는 감소시키는 방식으로 훈련한다. 이를 통해 강력한 다중 모달 융합과 입력 누락 상황에서도 원활한 처리가 가능해진다. 실험 결과, 추가된 조절 기능이 생성 정확도를 향상시키고, 기하학적 인식 기반의 변환을 가능하게 하며, 산업용 워크플로우의 안정성과 견고성을 높임을 확인할 수 있었다.