13일 전

기반 트랜스포머 주의망을 이용한 지속적인 픽셀 단위 예측

Guanglei Yang, Hao Tang, Mingli Ding, Nicu Sebe, Elisa Ricci
기반 트랜스포머 주의망을 이용한 지속적인 픽셀 단위 예측
초록

컨볼루셔널 신경망(Convolutional Neural Networks)은 다양한 컴퓨터 비전 작업에서 막대한 영향을 미쳤지만, 컨볼루션 연산의 본질적인 국소성으로 인해 장거리 의존성(Long-range dependencies)을 명시적으로 모델링하는 데 일반적으로 한계를 보인다. 초기에는 자연어 처리 작업을 위해 설계된 트랜스포머(Transformer)는 장거리 의존성을 포착할 수 있는 내재적인 전역 자기주의( global self-attention) 메커니즘을 갖춘 대안적인 아키텍처로 부상했다. 본 논문에서는 컨볼루셔널 신경망과 트랜스포머의 장점을 모두 활용할 수 있는 TransDepth 아키텍처를 제안한다. 트랜스포머를 도입함으로써 네트워크가 국소 수준의 세부 정보를 포착하는 능력을 상실하는 것을 방지하기 위해, 게이트 기반의 주의 메커니즘(attention mechanisms)을 활용하는 새로운 디코더를 제안한다. 특히 본 논문은 지표값이 연속적인 픽셀 단위 예측 문제(즉, 단안 깊이 예측과 표면 법선 추정)에 트랜스포머를 적용한 최초의 연구이다. 광범위한 실험을 통해 제안된 TransDepth가 세 가지 도전적인 데이터셋에서 최신 기준(SOTA, state-of-the-art) 성능을 달성함을 입증하였다. 본 연구의 코드는 다음 링크에서 제공된다: https://github.com/ygjwd12345/TransDepth.