17일 전
D-Net: 단안 깊이 추정을 위한 일반화되고 최적화된 심층 네트워크
{Abdesselam Bouzerdoum, Son Lam Phung, Joshua Luke Thompson}
초록
심도 추정은 3D 장면 이해를 달성하기 위한 컴퓨터 비전 시스템에서 핵심적인 구성 요소이다. 효율적이고 정확한 심도 맵 추정은 자율 주행 차량 및 가상 현실 도구와 같은 다양한 응용 분야에 활용된다. 본 논문은 단일 RGB 이미지로부터 심도를 추정하기 위한 새로운 딥 네트워크인 D-Net을 제안한다. 제안된 네트워크는 엔드 투 엔드로 학습이 가능하며, 모델 크기, 속도, 예측 정확도 등 다양한 요구 사항에 맞게 구조를 맞춤형으로 조정할 수 있다. 본 연구 방법은 다중 해상도에서 강력한 전역 및 국소적 맥락 정보를 수집한 후, 이를 고해상도로 전달하여 보다 명확한 심도 맵을 생성한다. 인코더 백본으로 D-Net은 효율적이고 최신 기술을 반영한 다양한 모델들인 EfficientNet, HRNet, Swin Transformer 등을 활용하여 밀도 높은 심도 맵을 생성할 수 있다. 제안된 D-Net은 최소한의 파라미터와 낮은 계산 복잡도를 갖도록 설계되어 있다. NYUv2 및 KITTI 벤치마크 데이터셋에서 실시한 광범위한 평가 결과, 본 모델은 다양한 백본에서 높은 정확도를 보이며, 특히 Swin Transformer 및 HRNet과 결합할 경우 두 벤치마크에서 모두 최고 성능을 달성하여 최신 기술 수준의 성능을 입증하였다.