17일 전

단순화된 비전 트랜스포머를 활용한 최소주의적이고 고성능의 세분화 분할

Yuanduo Hong, Jue Wang, Weichao Sun, Huihui Pan
단순화된 비전 트랜스포머를 활용한 최소주의적이고 고성능의 세분화 분할
초록

마스크 이미지 모델링(Masked Image Modeling, MIM)의 등장 이후, 다양한 일반적인 비계층형 비전 트랜스포머(Vision Transformer, ViT) 모델들이 방대한 데이터셋을 기반으로 사전 훈련되어, 의미 분할(semanctic segmentation) 분야에 새로운 패러다임과 큰 잠재력을 제시하고 있다. 현재 최첨단 시스템들은 수많은 인덕티브 바이어스(inductive biases)를 포함하고 있으며, 복잡한 디코더 구조를 사용하고 있다. 일반적인 ViT의 원초적 목적인 간결성과 일반성에 기반하여, 본 연구에서는 높은 성능을 달성하는 동시에 최소한의 구조를 갖춘 '미니멀리스트(minimalist)' 시스템을 탐색한다. 본 연구의 주요 목적은 일반적인 ViT를 활용한 실용적인 의미 분할을 위한 간단하고 효율적인 기준 모델(baseline)을 제시하는 것이다. 구체적으로, 마지막 특징 맵을 활용하여 높은 성능의 의미 분할을 달성할 수 있는 가능성과 방법론을 탐구한다. 그 결과, 트랜스포머 계층(인코더 또는 디코더) 외에 단지 세 개의 3×3 컨볼루션 계층만을 포함하는 PlainSeg 모델을 제안한다. 이 과정에서 두 가지 핵심 원리를 제시한다: (i) 단순한 업샘플링 기법을 사용하더라도 고해상도 특징이 높은 성능을 위해 필수적이다; (ii) 슬림한 트랜스포머 디코더는 넓은 트랜스포머 디코더보다 훨씬 더 큰 학습률을 필요로 한다. 이러한 기반 위에서, 계층적 특징을 활용할 수 있는 PlainSeg-Hier 모델도 제안한다. 네 가지 주요 벤치마크에서 실시한 광범위한 실험을 통해 제안된 방법의 높은 성능과 효율성을 입증하였다. 또한, 기반 모델의 의미 분할 분야로의 전이 능력을 평가하는 강력한 도구로도 활용 가능하다. 코드는 \url{https://github.com/ydhongHIT/PlainSeg}에서 공개되어 있다.

단순화된 비전 트랜스포머를 활용한 최소주의적이고 고성능의 세분화 분할 | 최신 연구 논문 | HyperAI초신경