Pix2Vox: 단일 및 다중 뷰 이미지에서 맥락 인식 3D 재구성

최근 몇 년 동안 단일 뷰 또는 다중 뷰 RGB 이미지에서 객체의 3D 표현을 깊은 신경망으로 복원하는 기술에 대한 관심이 점차 증가하고 있습니다. 주요 연구들(예: 3D-R2N2)은 순환 신경망(RNNs)을 사용하여 입력 이미지에서 추출된 여러 특징 맵을 순차적으로 융합합니다. 그러나 같은 입력 이미지 집합이 다른 순서로 주어질 때, RNN 기반 접근법은 일관된 재구성 결과를 생성할 수 없습니다. 또한 장기 기억 손실로 인해 RNNs는 입력 이미지를 완전히 활용하여 재구성 결과를 개선할 수 없습니다. 이러한 문제들을 해결하기 위해, 우리는 단일 뷰 및 다중 뷰 3D 재구성을 위한 새로운 프레임워크인 Pix2Vox를 제안합니다. 잘 설계된 인코더-디코더 구조를 사용하여 각 입력 이미지로부터 대략적인 3D 볼륨을 생성합니다. 그런 다음, 문맥 인식 융합 모듈(context-aware fusion module)이 도입되어 서로 다른 대략적인 3D 볼륨들에서 각 부분(예: 테이블 다리)의 고품질 재구성을 적응적으로 선택하여 융합된 3D 볼륨을 얻습니다. 마지막으로, 리파이너(refiner)가 융합된 3D 볼륨을 더욱 정교하게 조정하여 최종 출력을 생성합니다. ShapeNet과 Pix3D 벤치마크에서 수행한 실험 결과, 제안된 Pix2Vox가 기존 최신 기술보다 크게 우수함을 보여주었습니다. 또한 후방 추론 시간 측면에서 제안된 방법은 3D-R2N2보다 24배 더 빠르다는 것을 확인하였습니다. ShapeNet 미확인 3D 카테고리에 대한 실험에서는 우리의 방법이 우수한 일반화 능력을 보유하고 있음을 입증하였습니다.