17일 전

MOAT: 교대되는 모바일 컨볼루션과 어텐션을 통한 강력한 비전 모델 구현

Chenglin Yang, Siyuan Qiao, Qihang Yu, Xiaoding Yuan, Yukun Zhu, Alan Yuille, Hartwig Adam, Liang-Chieh Chen
MOAT: 교대되는 모바일 컨볼루션과 어텐션을 통한 강력한 비전 모델 구현
초록

이 논문은 MObile 합성곱(i.e., 역전 잔차 블록)과 ATtention을 기반으로 하는 신경망 가족인 MOAT를 제안한다. 기존의 별도의 모바일 합성곱 블록과 트랜스포머 블록을 단순히 쌓는 방식과 달리, 본 연구에서는 이를 효과적으로 융합하여 MOAT 블록을 구성한다. 표준 트랜스포머 블록을 기반으로 하여, 다층 퍼셉트론(Multi-Layer Perceptron)을 모바일 합성곱 블록으로 대체하고, 자가 주의(Self-Attention) 연산 전에 블록 순서를 재정렬한다. 모바일 합성곱 블록은 네트워크의 표현 능력을 향상시킬 뿐만 아니라, 더 우수한 다운샘플링 특징을 생성한다. 개념적으로 간단한 이 MOAT 네트워크는 놀랍도록 효과적이며, ImageNet22K에서 사전 학습한 후 ImageNet-1K 및 ImageNet-1K-V2에서 각각 89.1%, 81.5%의 top-1 정확도를 달성한다. 또한, 전역 주의(Global Attention)를 윈도우 주의(Window Attention)로 단순히 변환함으로써, 고해상도 입력을 요구하는 하류 작업에 원활하게 적용할 수 있다. 모바일 합성곱은 픽셀 간의 국소 정보를 효과적으로 교환함(즉, 윈도우 간의 정보 교환 가능)하여, 추가적인 윈도우 이동(Window-Shifting) 메커니즘이 필요하지 않다. 결과적으로 COCO 객체 탐지에서는 227M 파라미터 모델(싱글 스케일 추론 및 하드 NMS)로 59.2%의 박스 AP를 달성하였고, ADE20K 세그멘테이션에서는 496M 파라미터 모델(싱글 스케일 추론)로 57.6%의 mIoU를 기록하였다. 마지막으로, 채널 크기를 단순히 줄여 얻은 tiny-MOAT 가족 역시 놀랍게도 여러 모바일 전용 트랜스포머 기반 모델들을 초월하며 ImageNet에서 우수한 성능을 보였다. tiny-MOAT 가족은 하류 작업에서도 벤치마킹되어 커뮤니티의 기준 모델로 활용될 수 있다. 본 연구에서 제안하는 간단하면서도 효과적인 MOAT가, 합성곱과 자기 주의의 보다 원활한 통합을 촉진하기를 기대한다. 코드는 공개되어 있다.

MOAT: 교대되는 모바일 컨볼루션과 어텐션을 통한 강력한 비전 모델 구현 | 최신 연구 논문 | HyperAI초신경