HyperAI초신경
12일 전

Diffuman4D: 희소 뷰 비디오에서 시공간 확산 모델을 이용한 4D 일관성 있는 인간 시점 합성

Yudong Jin, Sida Peng, Xuan Wang, Tao Xie, Zhen Xu, Yifan Yang, Yujun Shen, Hujun Bao, Xiaowei Zhou
Diffuman4D: 희소 뷰 비디오에서 시공간 확산 모델을 이용한 4D 일관성 있는 인간 시점 합성
초록

본 논문은 희소 뷰 비디오를 입력으로 사용하여 인간의 고정밀 뷰 합성을 다루고 있습니다. 기존 방법들은 4D 확산 모델을 활용하여 새로운 시점에서 비디오를 생성함으로써 관찰 부족 문제를 해결하였습니다. 그러나 이러한 모델에서 생성된 비디오는 종종 시공간 일관성이 부족하여 뷰 합성 품질이 저하되는 문제가 있었습니다. 본 논문에서는 4D 확산 모델의 시공간 일관성을 개선하기 위해 새로운 슬라이딩 반복 제노이징 프로세스를 제안합니다. 구체적으로, 각 잠재 변수가 특정 시점과 타임스탬프에 대한 이미지, 카메라 자세, 그리고 인간 자세를 인코딩하는 잠재 그리드를 정의한 후, 슬라이딩 윈도우를 사용하여 공간적 및 시간적 차원을 번갈아 가며 잠재 그리드에서 제노이징을 수행하고, 마지막으로 대상 시점에 해당하는 제노이징된 잠재 변수들로부터 비디오를 디코딩합니다. 이 반복적인 슬라이딩을 통해 잠재 그리드 내에서 정보가 충분히 전달되며, 확산 모델이 큰 수용 영역을 얻어 출력의 4D 일관성을 향상시키면서도 GPU 메모리 소비량을 적절하게 유지할 수 있습니다. DNA-Rendering 및 ActorsHQ 데이터셋에 대한 실험 결과는 본 방법론이 고품질이고 일관된 새로운 시점 비디오를 합성할 수 있으며 기존 접근법들을 크게 능가한다는 것을 입증하였습니다. 상호작용형 데모와 비디오 결과는 프로젝트 페이지에서 확인하실 수 있습니다: https://diffuman4d.github.io/ .