2달 전

Human-VDM: 비디오에서 단일 이미지 3D 인간 가우시안 스플래팅 학습 확산 모델

Liu, Zhibin ; Dong, Haoye ; Chharia, Aviral ; Wu, Hefeng
Human-VDM: 비디오에서 단일 이미지 3D 인간 가우시안 스플래팅 학습
  확산 모델
초록

단일 RGB 이미지에서 실제와 같은 3D 인간을 생성하는 것은 기하학, 고품질 텍스처, 그리고 가능한 부분의 정확한 모델링이 필요하기 때문에 컴퓨터 비전 분야에서 여전히 어려운 과제입니다. 기존 방법들은 일반적으로 다중 뷰 확산 모델을 사용하여 3D를 생성하지만, 종종 일관성 없는 뷰 문제에 직면하여 고품질 3D 인간 생성을 방해합니다. 이를 해결하기 위해 우리는 단일 RGB 이미지를 사용하여 3D 인간을 생성하는 새로운 방법인 Human-VDM (Video Diffusion Models)을 제안합니다. Human-VDM은 가우시안 스플래팅(Gaussian Splatting)을 통해 시간적으로 일관된 뷰를 제공하여 3D 인간 생성을 수행합니다. 이는 세 가지 모듈로 구성됩니다: 뷰 일관성 인간 비디오 확산 모듈, 비디오 증강 모듈, 그리고 가우시안 스플래팅 모듈입니다.먼저, 단일 이미지는 뷰 일관성 인간 비디오 확산 모듈에 입력되어 일관된 인간 비디오를 생성합니다. 다음으로, 비디오 증강 모듈은 초해상화(super-resolution)와 비디오 보간(video interpolation)을 적용하여 생성된 비디오의 텍스처와 기하학적 부드러움을 개선합니다. 마지막으로, 3D Human Gaussian Splatting 모듈은 이러한 고해상도 및 뷰 일관성 이미지의 지도 하에 실제와 같은 인간을 학습합니다.실험 결과, Human-VDM은 단일 이미지에서 고품질 3D 인간을 생성하며, 생성 품질과 양 모두에서 최신 방법들을 능가하는 것으로 나타났습니다. 프로젝트 페이지: https://human-vdm.github.io/Human-VDM/