11일 전
TransDSSL: 자기지도학습을 통한 Transformer 기반 깊이 추정
{Yukyung Choi, Soomnim Hwang, Namil Kim, Jeongmin Shin, Daechan Han}
초록
최근 들어 변환기(Transformer)는 이미지 내 장거리 공간적 의존성을 효과적으로 인코딩할 수 있는 능력으로 인해 다양한 컴퓨터 비전 작업에 널리 채택되고 있으며, 희망적인 성과를 보이고 있다. 그러나 자기지도(depth) 추정에 변환기를 적용한 연구는 매우 제한적이다. 자기지도 학습에서 CNN 아키텍처를 변환기로 대체할 경우, 다중 스케일 광학적 손실 함수가 변환기와 함께 사용될 때 문제를 야기하며, 국소적인 세부 정보를 포착하는 능력이 부족하다는 등의 여러 과제에 직면하게 된다. 본 논문에서는 변환기의 전역적 맥락을 유지하면서 특징 맵의 세부 정보를 향상시키기 위해, 픽셀 단위 스케이프 어텐션(Pixel-Wise Skip Attention, PWSA)이라는 어텐션 기반 디코더 모듈을 제안한다. 또한, 정확한 학습 신호를 활용하여 변환기 학습의 불안정성을 완화하기 위해 단일 스케일 광학적 손실과 함께 자기-디스틸리이션(self-distillation) 손실을 활용하는 방법을 제안한다. 실험을 통해 제안한 모델이 전역적 맥락과 국소적 세부 정보를 동시에 필요로 하는 큰 객체 및 얇은 구조에 대해 정확한 예측을 수행함을 입증하였다. 본 모델은 KITTI 및 DDAD 벤치마크에서 자기지도 단안 깊이 추정 방법 중 최고 성능을 달성하였다.