17일 전

시각 트랜스포머를 이용한 세그멘테이션을 위한 표현 분리

Yuanduo Hong, Huihui Pan, Weichao Sun, Xinghu Yu, Huijun Gao
시각 트랜스포머를 이용한 세그멘테이션을 위한 표현 분리
초록

비전 트랜스포머(Vision Transformers, ViTs)는 이미지를 패치의 시퀀스로 인코딩함으로써 의미 분할(semantic segmentation) 분야에 새로운 패러다임을 제시하고 있다. 본 논문에서는 ViTs가 의미 분할 과제에서 보이는 특유의 과도한 평활화(over-smoothness) 문제를 해결하기 위해, 국소적 패치 수준과 전역적 영역 수준에서의 표현 분리를 효율적으로 구현하는 프레임워크를 제안한다. 이는 현재 주목받고 있는 컨텍스트 모델링 패러다임과 주로 주목각도(attention)의 장점을 강화하는 기존의 대부분의 관련 연구들과 차별화된다. 먼저, 트랜스포머의 전역 표현과 보완적으로 국소적 패치의 차이를 강화하고 하향 전달하는 별도의 경로를 갖는 분리형 이중 경로 네트워크(decoupled two-pathway network)를 제안한다. 그 다음, 공간적으로 적응형 분리 모듈(spatially adaptive separation module)을 도입하여 보다 분리된 깊은 표현을 획득하고, 새로운 보조 지도 신호를 활용해 더 구분력 있는 영역 표현을 생성하는 구분력 있는 크로스 어텐션(discriminative cross-attention)을 제안한다. 제안된 방법은 다음과 같은 인상적인 성과를 달성하였다: 1) 대규모 단순 ViTs를 통합함으로써, 다섯 개의 널리 사용되는 벤치마크에서 새로운 최고 성능을 기록; 2) 마스킹된 사전 학습된 단순 ViTs를 사용하여 Pascal Context에서 68.9%의 mIoU를 달성, 새로운 기록 수립; 3) 분리형 이중 경로 네트워크를 통합한 피라미드형 ViTs가 Cityscapes에서 잘 설계된 고해상도 ViTs를 초월; 4) 본 프레임워크를 통해 개선된 표현은 자연스러운 왜곡이 있는 이미지에서 뛰어난 전이 가능성(transferability)을 보였다. 코드는 공개될 예정이다.