Command Palette
Search for a command to run...

초록
스케일링 법칙은 텍스트, 이미지, 영상 등 다양한 도메인에서 대량 데이터로 학습된 모델이 창의적 생성에 성공적으로 활용되고 있으며, 그 잠재력이 입증되었다. 그러나 이 패러다임은 3차원(3D) 도메인에서는 데이터 부족 문제에 직면해 있다. 왜냐하면 인터넷 상에 존재하는 3D 데이터는 위의 모달리티(텍스트, 이미지, 영상)에 비해 훨씬 적기 때문이다. 다행히도, 자연스럽게 보편 지식 사전 지식(commonsense priors)을 내포하고 있는 충분한 영상 데이터가 존재하며, 이는 제한된 원천 3D 데이터로 인한 일반화 한계를 완화할 수 있는 대체적인 지도 신호를 제공한다. 한편으로, 객체나 장면의 여러 시점을 포착한 영상은 3D 생성에 있어 공간 일관성 사전 지식을 제공한다. 다른 한편으로, 영상 내부에 포함된 풍부한 의미 정보는 생성된 콘텐츠가 텍스트 프롬프트에 더 충실하고 의미적으로 타당한 결과를 생성하도록 한다. 본 논문은 영상 모달리티를 3D 자산 생성에 어떻게 활용할 수 있는지, 데이터셋에서 모델에 이르기까지 종합적으로 탐구한다. 우리는 다중 시점 수준의 레이블을 갖춘 최초의 대규모 영상 데이터셋인 Droplet3D-4M을 소개하고, 이미지와 밀도 높은 텍스트 입력을 모두 지원하는 생성 모델인 Droplet3D를 학습하였다. 광범위한 실험을 통해 제안한 접근법의 효과성을 검증하였으며, 공간적으로 일관성 있고 의미적으로 타당한 콘텐츠 생성 능력을 입증하였다. 게다가 기존의 주류 3D 솔루션과 대비하여, 본 연구의 접근법은 장면 수준의 응용으로의 확장 가능성을 보여준다. 이는 영상에서 얻는 보편 지식 사전 지식이 3D 생성 과정에서 중요한 촉진 역할을 함을 시사한다. 모든 자원—데이터셋, 코드, 기술 프레임워크, 모델 가중치—를 오픈소스로 공개하였다. 자세한 정보는 다음 웹사이트를 참조하시기 바란다: https://dropletx.github.io/.