17일 전

MLP-Mixer: 비전을 위한 전부 MLP 아키텍처

Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy
MLP-Mixer: 비전을 위한 전부 MLP 아키텍처
초록

합성곱 신경망(Convolutional Neural Networks, CNNs)은 컴퓨터 비전 분야에서 가장 널리 사용되는 모델이다. 최근에는 비전 트랜스포머(Vision Transformer)와 같은 주의 기반(attention-based) 네트워크도 인기를 끌고 있다. 본 논문에서는 합성곱과 주의 메커니즘이 모두 우수한 성능을 달성하는 데 충분할 수는 있지만, 그 둘 중 어느 하나가 반드시 필요하다는 것은 아니라는 점을 보여준다. 우리는 다층 퍼셉트론(Multi-Layer Perceptrons, MLPs)에 기반한 단일 아키텍처인 MLP-Mixer를 제안한다. MLP-Mixer는 두 가지 유형의 레이어로 구성된다. 하나는 이미지 패치별로 독립적으로 MLP를 적용하여 각 위치의 특징을 '혼합(mixing)'하는 레이어이고, 다른 하나는 패치 간에 MLP를 적용하여 공간 정보를 '혼합(mixing)'하는 레이어이다. 대규모 데이터셋에서 훈련하거나 현대적인 정규화 기법을 사용할 경우, MLP-Mixer는 이미지 분류 벤치마크에서 최첨단 모델과 경쟁 가능한 성능을 달성하며, 사전 훈련 및 추론 비용도 최신 기술 수준과 유사하다. 이러한 결과가 기존에 확립된 CNN과 트랜스포머의 범위를 넘어서는 추가적인 연구를 촉진하기를 기대한다.

MLP-Mixer: 비전을 위한 전부 MLP 아키텍처 | 최신 연구 논문 | HyperAI초신경