
시각 분야의 많은 전통적인 과제들—예를 들어 광학 흐름(optical flow) 또는 스테레오 이상치(stereo disparities) 추정—은 밀도 높은 대응 매칭(dense correspondence matching) 문제로 재정의할 수 있다. 이러한 문제를 해결하기 위해 널리 알려진 기법들은 일반적으로 4차원 텐서인 비용 볼륨(cost volume)을 활용하는데, 이는 2차원 이미지의 모든 픽셀과 그에 대응할 수 있는 2차원 탐색 창 내의 후보 위치 간의 매칭 비용을 담고 있다. 최신의 광학 흐름 및 스테레오를 위한 딥 네트워크는 이러한 부피형 표현(volumetric representations)을 내부 레이어로 활용하고 있다. 그러나 이러한 레이어는 메모리와 연산 자원을 크게 소비하기 때문에 실제 적용에 있어 부담이 크다. 결과적으로 최신 네트워크는 부피형 처리를 제한하기 위해 다양한 휴리스틱 기법을 도입하게 되었으며, 이는 정확도 제한과 과적합(overfitting)을 초래한다. 본 연구에서는 이러한 부피형 레이어의 사용을 극적으로 간소화하는 몇 가지 간단한 개선을 제안한다. 첫째, 효율적으로 큰 수용장(field)을 포착할 수 있는 부피형 인코더-디코더 아키텍처를 도입한다. 둘째, 다차원적인 픽셀 유사도(pixel similarities) 개념을 반영하는 다채널 비용 볼륨을 도입한다. 셋째, 분리 가능(separable)한 부피형 필터링을 통해 연산량과 파라미터 수를 크게 줄이면서도 정확도를 유지한다. 본 연구의 혁신은 기존 최고 수준(SOTA) 기법보다 표준 벤치마크에서 훨씬 높은 정확도를 달성하면서도, 사용이 훨씬 쉬워진다. 학습 수렴(iteration) 횟수는 10배 이상 감소하며, 가장 중요한 점은 본 네트워크가 다양한 대응 과제 간에 일반화(generalization)가 가능하다는 것이다. 실시간으로 탐색 창을 조정할 수 있는 기능을 통해 광학 흐름 네트워크를 스테레오 처리에, 또는 그 반대로도 재사용할 수 있으며, 필요 시 탐색 창 크기를 자동으로 확대하는 적응형 네트워크 구현에도 활용할 수 있다.