계층적 신경망 아키텍처 탐색을 통한 딥 스테레오 매칭

신경망 설계에 필요한 인적 자원을 줄이기 위해, 신경망 아키텍처 탐색(Neural Architecture Search, NAS)은 분류 및 세그멘테이션과 같은 고수준 비전 작업에 뛰어난 성과를 거두며 적용되어 왔다. NAS 알고리즘의 핵심 아이디어는 간단하다. 다양한 연산(예: 서로 다른 필터 크기의 컨볼루션) 중에서 네트워크가 자신만의 최적의 선택을 할 수 있도록 함으로써, 문제에 더 적합한 최적의 아키텍처를 탐색할 수 있다는 점이다. 그러나 현재까지 NAS의 성공은 저수준 기하학적 비전 작업, 예를 들어 스테레오 매칭(stereo matching)에는 아직까지 확대되지 않았다. 그 이유의 일부는 현재 인간이 설계한 최첨단 딥 스테레오 매칭 네트워크가 이미 매우 방대한 크기를 지니고 있기 때문이다. 현재 주류 컴퓨팅 자원으로는 이러한 거대한 구조에 직접 NAS를 적용하는 것이 계산적으로 불가능하다. 본 논문에서는 저수준 기하학적 비전 작업, 특히 딥 스테레오 매칭에 최초로 엔드 투 엔드 계층적(Neural Architecture Search, NAS) 프레임워크를 제안한다. 이 프레임워크는 태스크 특화된 인간 지식을 NAS 프레임워크에 통합함으로써 가능하게 되었다. 구체적으로, 딥 스테레오 매칭의 표준 파이프라인(즉, 특징 추출 – 특징 볼륨 구축 및 밀도 높은 매칭)을 따르며, 전체 파이프라인의 아키텍처를 동시에 최적화한다. 광범위한 실험을 통해 제안한 네트워크가 모든 최첨단 딥 스테레오 매칭 아키텍처를 능가하며, KITTI 스테레오 2012 및 2015, Middlebury 벤치마크에서 정확도 1위를 기록했으며, SceneFlow 데이터셋에서도 정확도 1위를 달성하였다. 더불어 네트워크 크기와 추론 속도 측면에서 상당한 개선을 이뤄냈다. 코드는 다음 주소에서 공개되어 있다: https://github.com/XuelianCheng/LEAStereo.