11일 전

HR-Depth: 고해상도 자기지도 학습 단안 깊이 추정

Xiaoyang Lyu, Liang Liu, Mengmeng Wang, Xin Kong, Lina Liu, Yong Liu, Xinxin Chen, Yi Yuan
HR-Depth: 고해상도 자기지도 학습 단안 깊이 추정
초록

자기지도 학습은 단일 카메라 영상 시퀀스를 유일한 감독 정보로 사용함으로써 단안 깊이 추정 분야에서 큰 잠재력을 보이고 있다. 비록 고해상도 이미지를 깊이 추정에 활용하려는 시도가 이루어졌지만, 예측 정확도의 상당한 향상은 이루어지지 못했다. 본 연구에서는 이러한 문제의 핵심 원인이 큰 기울기 영역에서의 깊이 추정 정확도 부족에 있음을 발견하였다. 이로 인해 해상도가 증가함에 따라 이중선형 보간 오류가 점차 사라지는 현상이 발생한다. 따라서 큰 기울기 영역에서 더 정확한 깊이 추정을 달성하기 위해서는 공간적 정보와 의미적 정보를 동시에 갖춘 고해상도 특징을 확보할 필요가 있다. 이를 해결하기 위해 우리는 두 가지 효과적인 전략을 도입한 개선된 DepthNet, 즉 HR-Depth를 제안한다. 첫째, DepthNet의 스케이프 커넥션(스킵 커넥션)을 재설계하여 보다 우수한 고해상도 특징을 추출하도록 하였으며, 둘째, 특징 융합을 보다 효율적으로 수행할 수 있는 Squeeze-and-Excitation 기반의 특징 융합 모듈(fSE)을 제안하였다. ResNet-18을 인코더로 사용할 경우, HR-Depth는 파라미터 수가 가장 적으면서도 고해상도 및 저해상도 모두에서 기존 최고 성능(SoTA) 기법들을 모두 능가한다. 또한 기존의 최고 성능 기법들은 상당히 복잡하고 깊은 네트워크 구조를 기반으로 하며, 방대한 파라미터 수를 필요로 하여 실용적 적용에 한계가 있었다. 이를 보완하기 위해 MobileNetV3을 인코더로 사용하는 경량화 네트워크도 구축하였다. 실험 결과, 이 경량화 네트워크는 Monodepth2와 같은 많은 대규모 모델들과 동등한 성능을 고해상도에서 달성할 수 있었으며, 파라미터 수는 단지 20%에 불과하였다. 모든 코드와 모델은 https://github.com/shawLyu/HR-Depth 에 공개될 예정이다.

HR-Depth: 고해상도 자기지도 학습 단안 깊이 추정 | 최신 연구 논문 | HyperAI초신경