
초록
최근 들어, 연속된 다층 퍼셉트론(MLP) 블록으로 구성된 MLP 기반 아키텍처가 합성곱(Convolutional) 및 트랜스포머 기반 방법과 경쟁 가능한 성능을 달성하는 것으로 나타났다. 그러나 대부분의 기존 방법은 고정된 차원의 입력을 처리하는 공간적 MLP(spatial MLP)를 사용하기 때문에, 객체 탐지나 세분할(semantic segmentation)과 같은 하류 작업에 적용하기 어렵다는 한계가 있다. 또한 단일 스테이지(single-stage) 설계는 다른 컴퓨터 비전 작업에서의 성능을 further 제한하며, 완전 연결 계층(full-connected layers)은 높은 계산 부담을 수반한다. 이러한 문제를 해결하기 위해, 우리는 계층적 합성곱 MLP(ConvMLP)를 제안한다. 이는 합성곱 계층과 MLP를 효율적으로 통합한 가벼운, 스테이지 기반의 공동 설계 아키텍처이다. 특히, ConvMLP-S는 ImageNet-1k 데이터셋에서 9M 파라미터와 2.4G MACs로 76.8%의 top-1 정확도를 달성하였으며, 이는 MLP-Mixer-B/16 대비 각각 15%, 19%에 불과한 자원 소모이다. 객체 탐지 및 세분할에 대한 실험 결과를 통해, ConvMLP가 학습한 시각적 표현이 효과적으로 전이 가능하며, 더 적은 파라미터로 경쟁력 있는 성능을 보임을 확인하였다. 본 연구의 코드와 사전 학습 모델은 https://github.com/SHI-Labs/Convolutional-MLPs 에 공개되어 있다.