GRAF: 3D 인식 이미지 합성용 생성 라디안스 필드

2D 생성적 적대 신경망은 고해상도 이미지 합성을 가능하게 하였지만, 3D 세계와 이미지 형성 과정에 대한 이해가 부족하여 카메라 시점이나 객체 자세에 대한 정밀한 제어를 제공하지 못한다. 이러한 문제를 해결하기 위해 최근 여러 접근 방식에서 중간 복셀 기반 표현과 미분 가능한 렌더링을 결합하여 활용하고 있다. 그러나 기존 방법들은 저해상도의 이미지를 생성하거나 카메라와 장면 속성 간의 분리(disentangling)에서 부족한 경우가 많다. 예를 들어, 객체의 식별(identity)이 시점에 따라 달라질 수 있다. 본 논문에서는 단일 장면의 새로운 시점 합성에 최근 성공적으로 사용된 라디언스 필드(radiance fields)를 위한 생성 모델을 제안한다. 복셀 기반 표현과는 달리, 라디언스 필드는 3D 공간의 거친 이산화(coarse discretization)에 제약받지 않으면서도 재구성 애매함(reconstruction ambiguity)이 존재할 때 점진적으로 성능이 저하되는 특성을 가지고 있어 카메라와 장면 속성 간의 분리를 가능하게 한다. 다중 스케일 패치 기반 판별기(multi-scale patch-based discriminator)를 도입함으로써, 우리는 포즈 정보가 없는 2D 이미지들만으로 모델을 훈련시키면서 고해상도 이미지 합성을 보여준다. 우리는 여러 가지 어려운 합성 데이터셋과 실제 세계 데이터셋에서 체계적으로 접근 방식을 분석하였다. 실험 결과, 라디언스 필드는 생성적 이미지 합성에 강력한 표현 방식임을 확인하였으며, 이는 고충실도로 렌더링되는 3D 일관성이 있는 모델을 생성하는 것으로 나타났다.