7일 전

gSwin: 이동 윈도우의 계층 구조를 갖춘 게이트형 MLP 비전 모델

Mocho Go, Hideyuki Tachibana
gSwin: 이동 윈도우의 계층 구조를 갖춘 게이트형 MLP 비전 모델
초록

언어 분야에서의 성공을 계기로, 자기 주의 메커니즘(self-attention mechanism, Transformer)이 비전 분야로 확장되어 최근 큰 성과를 거두고 있다. 또한 다른 한 흐름으로, 다층 퍼셉트론(Multi-layer Perceptron, MLP)도 비전 분야에서 탐구되고 있다. 이러한 기존의 CNN이 아닌 아키텍처들은 최근 주목받으며 다양한 방법들이 제안되고 있다. 이미지 인식에서 파라미터 효율성과 성능, 국소성(locality) 및 계층성(hierarchy)을 동시에 고려한 측면에서, 본 연구에서는 Swin Transformer와 (다중 헤드) gMLP를 결합한 gSwin을 제안한다. 실험을 통해 gSwin이 모델 크기가 더 작음에도 불구하고, 이미지 분류, 객체 탐지, 세그멘테이션 세 가지 비전 과제에서 Swin Transformer보다 더 높은 정확도를 달성함을 입증하였다.

gSwin: 이동 윈도우의 계층 구조를 갖춘 게이트형 MLP 비전 모델 | 최신 연구 논문 | HyperAI초신경