
초록
현재의 스테레오 매칭 기술은 제한된 탐색 공간, 가림 영역, 그리고 막대한 데이터 크기 등 여러 도전 과제에 직면해 있다. 단일 이미지 깊이 추정은 이러한 문제로부터 자유로워서 추출된 단안적 특징을 활용해 만족스러운 결과를 달성할 수 있지만, 스테레오 관계가 부재함으로써 단독으로는 특히 동적 또는 혼잡한 환경에서 예측의 신뢰성이 낮아지는 문제가 있다. 이러한 두 상황 모두를 해결하기 위해, 시각 전환 구조( optic chiasm)를 영감으로 삼은 자기지도 학습 기반 이안 깊이 추정 방법을 제안한다. 본 방법은 게이트형 위치 교차주의(Gated Positional Cross-Attention, GPCA) 레이어를 갖춘 비전 트랜스포머(Vision Transformer, ViT)를 설계하여, 서로 다른 시점 간의 특징 민감한 패턴 검색을 가능하게 하면서도 자기주의(Self-attention)를 통해 수집된 광범위한 맥락 정보를 유지한다. 이후 단일 시점에서 추출한 단안적 특징은 검색된 패턴 쌍을 바탕으로 블렌딩 레이어를 통해 조건부로 보정된다. 이 이중 구조는 인간 시각 시스템의 시신경 교차( optic chiasm) 구조와 생물학적으로 유사하므로, 본 모델은 'ChiTransformer'라고 명명하였다. 실험 결과, 이 아키텍처는 최첨단 자기지도 학습 스테레오 기법보다 11% 이상의 성능 향상을 보였으며, 직선형 이미지뿐 아니라 비직선형(예: 피시아이 이미지) 이미지에도 적용 가능함을 입증하였다.