11일 전
Pix2Vox++: 단일 및 다중 이미지에서의 다중 스케일 컨텍스트 인지 3D 객체 재구성
Haozhe Xie, Hongxun Yao, Shengping Zhang, Shangchen Zhou, Wenxiu Sun

초록
최근 몇 년간 단일 또는 다중 이미지로부터 깊은 신경망을 활용해 물체의 3차원 형태를 복원하는 기술에 대한 관심이 점차 증가하고 있다. 주류 기법(예: 3D-R2N2)은 입력 이미지의 특징 맵을 순차적으로 융합하기 위해 순환 신경망(RNN)을 사용한다. 그러나 RNN 기반 접근법은 동일한 입력 이미지를 서로 다른 순서로 제공받을 경우 일관된 재구성 결과를 도출하지 못한다. 또한 장기 기억 손실로 인해 초기 입력 이미지에서 중요한 특징을 잊어버리는 문제가 존재한다. 이러한 문제를 해결하기 위해 본 연구에서는 단시야 및 다시야 3차원 물체 재구성에 적합한 새로운 프레임워크인 Pix2Vox++을 제안한다. 제안한 방법은 잘 설계된 인코더-디코더 구조를 활용하여 각 입력 이미지로부터 거친 3차원 볼륨을 생성한다. 이후 다중 해상도의 컨텍스트 인식 융합 모듈을 도입하여, 모든 거친 3차원 볼륨 중에서 각 부분에 대해 고품질의 재구성을 적응적으로 선택하여 융합된 3차원 볼륨을 생성한다. 또한 융합된 3차원 볼륨 내에서 잘못 복원된 부분을 보정하기 위해 리파인어(refiner)를 추가로 도입하여 최종 출력을 생성한다. ShapeNet, Pix3D, Things3D 등의 벤치마크에서 수행된 실험 결과에 따르면, Pix2Vox++는 정확도와 효율성 측면에서 기존 최첨단 기법들과 비교해도 우수한 성능을 보였다.