
학습 기반 스테레오 매칭 알고리즘의 놀라운 진보에도 불구하고, 여전히 해결되지 않은 핵심 과제가 존재한다. 현재 최첨단 스테레오 모델의 대부분은 비용이 큰 3차원 컨볼루션(3D convolution)에 기반하고 있으며, 이는 입체적인 계산 복잡도(3차원 복잡도)와 높은 메모리 소비로 인해 실세계 응용 분야에 배포하기에 매우 비용이 많이 든다. 본 논문에서는 일반적으로 사용되는 3D 컨볼루션을 완전히 대체함으로써 높은 추론 속도를 달성하면서도 비교 가능한 정확도를 유지하는 것을 목표로 한다. 이를 위해 우리는 먼저, 비틀림(disparity discontinuities)에서 발생하는 잘 알려진 경계 퍼짐(edge-fattening) 문제를 완화하기 위한 희소 점 기반의 내스케일(cost aggregation) 방법을 제안한다. 또한, 대규모 무문양 영역을 처리하기 위해 기존의 크로스스케일(cost aggregation) 알고리즘을 신경망 계층으로 근사한다. 두 모듈은 모두 간단하고 경량화되어 있으며, 서로 보완적인 관계를 가지며, 비용 집계를 위한 효과적이고 효율적인 아키텍처를 구축한다. 이러한 두 모듈을 도입함으로써, 기존의 최고 성능 모델들(예: GC-Net 대비 41배, PSMNet 대비 4배, GA-Net 대비 38배)의 추론 속도를 크게 향상시킬 뿐만 아니라, 빠른 스테레오 모델들(예: StereoNet)의 성능도 향상시킬 수 있다. 또한, 62ms의 속도로 작동하면서 Scene Flow 및 KITTI 데이터셋에서 경쟁력 있는 성능을 달성하여 제안한 방법의 유연성과 높은 효율성을 입증하였다. 본 연구의 전체 프레임워크는 https://github.com/haofeixu/aanet 에서 공개되어 있다.