15일 전

효율적인 언어 모델링을 위한 희소 all-MLP

Ping Yu, Mikel Artetxe, Myle Ott, Sam Shleifer, Hongyu Gong, Ves Stoyanov, Xian Li
효율적인 언어 모델링을 위한 희소 all-MLP
초록

모든 MLP 아키텍처는 주목받는 주의 기반 모델의 대안으로 점점 더 많은 관심을 끌고 있다. 자연어 처리(NLP) 분야에서 최근의 gMLP와 같은 연구들은 모든 MLP가 언어 모델링에서 Transformer와 경쟁할 수 있음을 보여주었지만, 여전히 하류 작업에서는 뒤처지고 있다. 본 연구에서는 MLP의 표현력 측면에서의 한계를 분석하고, 특성 차원과 입력(토큰) 차원 양쪽에 걸쳐 믹스처 오브 엑스퍼트(Mixture-of-Experts, MoE)를 적용한 희소 활성화 MLP를 제안한다. 이러한 희소한 모든 MLP는 계산량을 유지하면서 모델의 용량과 표현력을 크게 향상시킨다. 또한 조건부 계산을 통합하는 데 있어 핵심적인 도전 과제를 두 가지 라우팅 전략을 통해 해결한다. 제안된 희소한 모든 MLP는 언어 모델링의 퍼플렉서티를 개선하고, Transformer 기반 MoE(GShard, Switch Transformer, Base Layers, HASH Layers)를 비롯한 밀집형 Transformer와 모든 MLP보다 최대 2배에 달하는 학습 효율성 향상을 달성한다. 마지막으로, 여섯 가지 하류 작업에서의 제로샷 인컨텍스트 학습 성능을 평가한 결과, 이 모델은 Transformer 기반 MoE와 밀집형 Transformer를 모두 능가함을 확인하였다.