9일 전

RTMV: 새로운 시점 합성용 광선 추적 다중 시점 합성 데이터셋

Jonathan Tremblay, Moustafa Meshry, Alex Evans, Jan Kautz, Alexander Keller, Sameh Khamis, Thomas Müller, Charles Loop, Nathan Morrical, Koki Nagano, Towaki Takikawa, Stan Birchfield
RTMV: 새로운 시점 합성용 광선 추적 다중 시점 합성 데이터셋
초록

새로운 시점 합성(novel view synthesis)을 위한 대규모 합성 데이터셋을 제안한다. 이 데이터셋은 고해상도(1600 x 1600 픽셀)의 고품질 광선 추적(ray tracing)을 사용해 약 2,000개의 복잡한 장면에서 렌더링된 약 30만 장의 이미지로 구성되어 있으며, 기존의 새로운 시점 합성용 합성 데이터셋보다 수개 차수 이상 크다. 이로 인해 학습과 평가를 위한 통합된 대규모 기준(benchmark)을 제공할 수 있다. 본 데이터셋의 장면들은 고품질 3D 메시를 4개의 서로 다른 소스에서 활용하여, 카메라 시점, 조명, 형태, 재질, 질감 등에서 도전적인 다양성을 보여준다. 기존의 방법으로는 처리가 불가능할 정도로 데이터셋이 크기 때문에, 우리는 효율적인 복셀 기반 광선 필드(voxel-based light field) 접근법인 Sparse Voxel Light Field(SVLF) 를 제안한다. SVLF는 합성 데이터에서 NeRF와 비슷한 성능을 달성하면서도, 학습 속도는 약 10배 빠르고 렌더링 속도는 약 100배 빠르다. SVLF의 빠른 속도는 희소 복셀 옥트리(sparse voxel octree), 신중한 복셀 샘플링(광선당 몇 개의 쿼리만 필요), 단순화된 네트워크 구조, 그리고 학습 시 진짜 깊이 맵(ground truth depth maps)의 활용을 통해 달성된다. 본 데이터셋은 Python 기반의 광선 추적 렌더러인 NViSII 를 통해 생성되었으며, 비전문가도 쉽게 사용하고 공유할 수 있도록 설계되었고, 스크립팅을 활용해 유연하고 강력한 기능을 제공하며, 고품질의 물리 기반 렌더링 이미지를 생성할 수 있다. 본 데이터셋의 일부를 활용한 실험을 통해, 단일 장면 모델링을 위한 표준 방법인 NeRF 및 mip-NeRF, 그리고 카테고리 수준 모델링을 위한 pixelNeRF를 비교할 수 있었으며, 이는 이 분야에 대한 향후 개선의 필요성을 시사한다.

RTMV: 새로운 시점 합성용 광선 추적 다중 시점 합성 데이터셋 | 최신 연구 논문 | HyperAI초신경