17일 전

AS-MLP: 비전을 위한 축 방향 이동형 MLP 아키텍처

Dongze Lian, Zehao Yu, Xing Sun, Shenghua Gao
AS-MLP: 비전을 위한 축 방향 이동형 MLP 아키텍처
초록

이 논문에서는 축 이동형 다층 퍼셉트론 아키텍처(AS-MLP)를 제안한다. MLP-Mixer와 달리, 전역 공간적 특징을 행렬 전치와 토큰 혼합 MLP를 통해 정보 흐름을 전달하는 방식이 아닌, 본 연구는 지역적 특징 간의 상호작용에 더 주목한다. 특징 맵의 채널을 축 방향으로 이동시킴으로써 AS-MLP는 다양한 축 방향에서 정보 흐름을 획득할 수 있으며, 이는 지역적 종속성을 효과적으로 포착할 수 있게 한다. 이러한 연산을 통해 순수한 MLP 아키텍처로도 CNN 유사 아키텍처와 동일한 지역적 수용 영역을 달성할 수 있다. 또한, 컨볼루션 신경망의 정신을 따르며 AS-MLP의 수용 영역 크기나 블록의 확장(dilation) 등을 설계할 수 있다. 제안된 AS-MLP 아키텍처를 사용한 모델은 ImageNet-1K 데이터셋에서 88M 파라미터와 15.2 GFLOPs로 83.3%의 Top-1 정확도를 달성한다. 단순하면서도 효과적인 이 아키텍처는 모든 MLP 기반 아키텍처를 능가하며, 오히려 약간 낮은 FLOPs로도 트랜스포머 기반 아키텍처(예: Swin Transformer)와 경쟁 가능한 성능을 보인다. 더불어 AS-MLP는 객체 탐지 및 세그멘테이션과 같은 하류 작업에 적용된 최초의 MLP 기반 아키텍처이기도 하다. 실험 결과 역시 인상적이다. 제안된 AS-MLP는 COCO 검증 세트에서 51.5 mAP, ADE20K 데이터셋에서 49.5 MS mIoU를 기록하며, 트랜스포머 기반 아키텍처와 경쟁 가능한 성능을 보였다. 본 연구의 AS-MLP는 MLP 기반 아키텍처의 강력한 기준선을 제시한다. 코드는 https://github.com/svip-lab/AS-MLP 에서 공개되어 있다.