2달 전

StereoNet: 실시간 엣지 인식 깊이 예측을 위한 안내형 계층적 정제

Sameh Khamis; Sean Fanello; Christoph Rhemann; Adarsh Kowdle; Julien Valentin; Shahram Izadi
StereoNet: 실시간 엣지 인식 깊이 예측을 위한 안내형 계층적 정제
초록

본 논문은 StereoNet을 소개합니다. StereoNet은 NVidia Titan X에서 초당 60프레임으로 실행되는 첫 번째 실시간 스테레오 매칭을 위한 단일 흐름의 딥 아키텍처로, 고품질, 경계선 보존, 양자화 없는 시차 맵을 생성합니다. 본 논문의 핵심 통찰력은 네트워크가 전통적인 스테레오 매칭 접근법보다 한 자릿수 높은 서브픽셀 매칭 정밀도를 달성한다는 것입니다. 이는 매우 낮은 해상도의 비용 체적(cost volume)을 사용하여 고시차 정밀도를 달성하기 위해 필요한 모든 정보를 인코딩함으로써 실시간 성능을 달성할 수 있게 합니다. 공간적 정밀도는 학습된 경계선 인식 업샘플링 함수를 사용하여 달성됩니다. 우리의 모델은 시아메즈(Siamese) 네트워크를 이용하여 좌우 이미지에서 특징을 추출합니다. 초기 시차 추정치는 매우 낮은 해상도의 비용 체적에서 계산되며, 이후 계층적으로 모델이 학습된 업샘플링 함수를 통해 고주파 세부 정보를 재도입합니다. 이 함수는 컴팩트한 픽셀-픽셀 정교화 네트워크를 사용하며, 색상 입력을 안내로 활용하여 고품질의 경계선 인식 출력을 생성할 수 있습니다. 우리는 여러 벤치마크에서 강력한 결과를 달성하였으며, 제안된 방법이 용인 가능한 계산 비용 내에서 극단적인 유연성을 제공하는 것을 보여주었습니다.

StereoNet: 실시간 엣지 인식 깊이 예측을 위한 안내형 계층적 정제 | 최신 연구 논문 | HyperAI초신경