18일 전

MLP에 주의하라

Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le
MLP에 주의하라
초록

Transformers는 지난 몇 년간 딥러닝 분야에서 가장 중요한 아키텍처적 혁신 중 하나로 자리 잡았으며, 많은 주요 성과를 이끌어냈다. 본 연구에서는 게이팅(gating)을 갖춘 MLP 기반의 간단한 네트워크 아키텍처인 gMLP를 제안하고, 언어 및 비전 분야의 주요 응용에서 Transformers와 동등한 성능을 달성할 수 있음을 보여준다. 우리의 비교 분석 결과, 비전 분야에서의 Transformers에 있어 자기주의(self-attention)는 필수적인 요소가 아님을 확인할 수 있었으며, gMLP 역시 동일한 정확도를 달성할 수 있었다. BERT 모델의 경우, 사전학습 시 퍼플렉시티(perplexity)에서는 Transformers와 동등한 성능을 보였고, 일부 하류 NLP 작업에서는 오히려 더 우수한 성능을 나타냈다. gMLP가 성능이 떨어지는 미세조정(finetuning) 작업에서는 모델 크기를 크게 확장함으로써 Transformers와의 성능 격차를 극복할 수 있었다. 종합적으로, 실험 결과 gMLP가 데이터 및 계산 자원 증가에 따라 Transformers와 동등하게 확장 가능함을 입증하였다.