
초록
다중 뷰 이미지에서 깊이 맵 추론을 위한 엔드투엔드 딥 러닝 아키텍처를 제시합니다. 네트워크에서는 먼저 깊은 시각적 이미지 특징을 추출한 후, 미분 가능한 호모그라피 왜곡을 통해 참조 카메라 프루스트럼에 3D 비용 볼륨을 구축합니다. 그 다음, 3D 합성곱을 적용하여 초기 깊이 맵을 정규화하고 회귀시키며, 이를 참조 이미지를 이용해 세밀하게 수정하여 최종 출력을 생성합니다. 우리의 프레임워크는 분산 기반 비용 메트릭을 사용하여 여러 특징을 하나의 비용 특징으로 매핑함으로써 임의의 N뷰 입력에 유연하게 적응할 수 있습니다. 제안된 MVSNet은 대규모 실내 DTU 데이터셋에서 시연되었습니다. 간단한 후처리를 통해 우리의 방법은 이전 최신 기술들을 크게 능가할 뿐만 아니라 실행 시간도 몇 배나 더 빠릅니다. 또한, 복잡한 실외 Tanks and Temples 데이터셋에서도 MVSNet을 평가하였으며, 2018년 4월 18일까지 어떤 미세 조정 없이도 우리의 방법이 1위를 차지하였음으로써 MVSNet의 강력한 일반화 능력을 보여주었습니다.