17일 전

SegViT: 일반 비전 트랜스포머를 이용한 세분화 분할

Bowen Zhang, Zhi Tian, Quan Tang, Xiangxiang Chu, Xiaolin Wei, Chunhua Shen, Yifan Liu
SegViT: 일반 비전 트랜스포머를 이용한 세분화 분할
초록

우리는 일반적인 비전 트랜스포머(Vision Transformers, ViTs)의 의미 분할(semantic segmentation) 가능성을 탐구하고, 이를 바탕으로 SegVit를 제안한다. 기존의 ViT 기반 분할 네트워크는 일반적으로 ViT의 출력에서 픽셀 수준의 표현을 학습하지만, 본 연구에서는 주목사상(attention mechanism)이라는 핵심 구성 요소를 활용하여 의미 분할을 위한 마스크를 생성한다. 구체적으로, 학습 가능한 클래스 토큰(class tokens)과 공간적 특징 맵 사이의 유사도 맵을 분할 마스크로 변환하는 Attention-to-Mask(ATM) 모듈을 제안한다. 실험 결과, ATM 모듈을 사용한 본 연구의 SegVit는 ADE20K 데이터셋에서 일반적인 ViT 백본을 사용하는 대조군보다 우수한 성능을 보이며, COCO-Stuff-10K 및 PASCAL-Context 데이터셋에서는 새로운 최고 성능(SOTA)을 달성하였다. 또한 ViT 백본의 계산 비용을 줄이기 위해, 질의 기반 다운샘플링(Query-based down-sampling, QD)과 질의 기반 업샘플링(Query-based up-sampling, QU)을 제안하여 축소된 구조(Shrunk structure)를 구축한다. 제안된 Shrunk 구조를 통해 모델은 최대 40%의 계산량을 절감하면서도 경쟁력 있는 성능을 유지할 수 있다.

SegViT: 일반 비전 트랜스포머를 이용한 세분화 분할 | 최신 연구 논문 | HyperAI초신경