16일 전

H-Net: 에피폴라 기하학을 활용한 비지도 학습 기반 주의 메커니즘을 통한 스테레오 깊이 추정

Baoru Huang, Jian-Qing Zheng, Stamatia Giannarou, Daniel S. Elson
H-Net: 에피폴라 기하학을 활용한 비지도 학습 기반 주의 메커니즘을 통한 스테레오 깊이 추정
초록

스테레오 이미지 쌍에서의 깊이 추정은 컴퓨터 비전 분야에서 가장 널리 연구된 응용 분야 중 하나가 되었으며, 이전 대부분의 방법들은 완전히 감독 학습(fully supervised learning) 환경에 의존해왔다. 그러나 정확하고 확장 가능한 지표 데이터(ground truth data)를 확보하는 것이 어려운 점으로 인해, 완전 감독 학습 방법의 학습 과정은 여전히 도전 과제이다. 이를 대체하기 위해, 자기 감독(self-supervised) 방법들이 이 문제를 완화하는 데 있어 점점 더 인기를 끌고 있다. 본 논문에서는 에피폴라 기하(epipolar geometry)를 활용하여 스테레오 매칭을 정교화하는 비감독(stereo depth estimation)을 위한 딥러닝 프레임워크인 H-Net을 제안한다. 본 연구에서는 최초로 시암형(autoencoder) 아키텍처를 깊이 추정에 적용하여 보정된 스테레오 이미지 간의 상호 정보(mutual information)를 추출할 수 있도록 하였다. 또한, 에피폴라 제약 조건(epipolar constraint)을 강제하기 위해 상호 에피폴라 주의 메커니즘(mutual epipolar attention mechanism)을 설계하였으며, 이는 입력 스테레오 쌍 간의 상호 정보를 학습하는 과정에서 동일한 에피폴라 선(epipolar line) 위에 위치한 특징의 대응 관계에 더 큰 가중치를 부여한다. 제안된 주의 메커니즘에 세분적 정보(semantic information)를 통합함으로써 스테레오 대응 관계를 추가로 강화하였다. 구체적으로, 최적 운반(optimal transport) 알고리즘을 사용하여 두 카메라 모두에서 관측되지 않는 영역의 주의값을 억제하고 이상치(outlier)를 제거하였다. KITTI2015 및 Cityscapes 데이터셋에서 실시한 광범위한 실험 결과, 제안한 방법은 기존의 최첨단 비감독 스테레오 깊이 추정 방법들을 모두 초월하며, 완전 감독 접근법과의 격차를 좁히는 데 성공하였다.

H-Net: 에피폴라 기하학을 활용한 비지도 학습 기반 주의 메커니즘을 통한 스테레오 깊이 추정 | 최신 연구 논문 | HyperAI초신경