17일 전
MLP-Mixer: 비전을 위한 전부 MLP 아키텍처
Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy

초록
합성곱 신경망(Convolutional Neural Networks, CNNs)은 컴퓨터 비전 분야에서 가장 널리 사용되는 모델이다. 최근에는 비전 트랜스포머(Vision Transformer)와 같은 주의 기반(attention-based) 네트워크도 인기를 끌고 있다. 본 논문에서는 합성곱과 주의 메커니즘이 모두 우수한 성능을 달성하는 데 충분할 수는 있지만, 그 둘 중 어느 하나가 반드시 필요하다는 것은 아니라는 점을 보여준다. 우리는 다층 퍼셉트론(Multi-Layer Perceptrons, MLPs)에 기반한 단일 아키텍처인 MLP-Mixer를 제안한다. MLP-Mixer는 두 가지 유형의 레이어로 구성된다. 하나는 이미지 패치별로 독립적으로 MLP를 적용하여 각 위치의 특징을 '혼합(mixing)'하는 레이어이고, 다른 하나는 패치 간에 MLP를 적용하여 공간 정보를 '혼합(mixing)'하는 레이어이다. 대규모 데이터셋에서 훈련하거나 현대적인 정규화 기법을 사용할 경우, MLP-Mixer는 이미지 분류 벤치마크에서 최첨단 모델과 경쟁 가능한 성능을 달성하며, 사전 훈련 및 추론 비용도 최신 기술 수준과 유사하다. 이러한 결과가 기존에 확립된 CNN과 트랜스포머의 범위를 넘어서는 추가적인 연구를 촉진하기를 기대한다.