17일 전
HITNet: 실시간 스테레오 매칭을 위한 계층적 반복 타일 정밀화 네트워크
Vladimir Tankovich, Christian Häne, Yinda Zhang, Adarsh Kowdle, Sean Fanello, Sofien Bouaziz

초록
이 논문은 실시간 스테레오 매칭을 위한 새로운 신경망 아키텍처인 HITNet을 제안한다. 최근의 많은 신경망 접근 방식이 전체 비용 부피(cost volume)를 기반으로 하며 3차원 합성곱(3D convolution)에 의존하는 것과 달리, 본 연구에서는 명시적으로 부피를 구축하지 않고, 빠른 다중 해상도 초기화 단계와 미분 가능한 2차원 기하학적 전파 및 왜곡(warping) 메커니즘을 활용하여 시차 가설(disparity hypothesis)을 추론한다. 높은 정확도를 달성하기 위해, 본 네트워크는 단순히 시차에 대한 기하학적 추론을 넘어서, 기울어진 평면 가설을 추론함으로써 더 정밀한 기하학적 왜곡 및 업샘플링 연산을 수행할 수 있다. 본 아키텍처는 본질적으로 다중 해상도 구조를 지니고 있어, 다양한 해상도 수준 간에 정보 전파가 가능하다. 여러 실험을 통해 제안된 방법이 최신 기술 대비 극히 적은 계산량으로도 뛰어난 성능을 보임을 입증하였다. 작성 시점 기준으로 HITNet은 두 뷰 스테레오에 대한 ETH3D 웹사이트에 공개된 모든 지표에서 1위~3위를 기록하였으며, Middlebury-v3에서 모든 엔드 투 엔드 학습 접근 방식 중 대부분의 지표에서 1위를 차지하고 있다. 또한, KITTI 2012 및 2015 벤치마크에서는 100ms 이내에 실행 가능한 공개된 방법들 중에서 1위를 기록하고 있다.