9일 전

N-Grammer: 잠재적 n-그램을 통한 트랜스포머 강화

Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao, Shuyuan Zhang, Shibo Wang, Ye Zhang, Shen Wu, Rigel Swavely, Phuong Dao, Christopher Fifty, Zhifeng Chen, Yonghui Wu
N-Grammer: 잠재적 n-그램을 통한 트랜스포머 강화
초록

최근 Transformer 모델은 자연어 처리 분야에서 핵심적인 기반 모델로 부상하였으며, 그 결과 대규모 모델 확장에 대한 관심과 투자가 크게 증가하고 있다. 그러나 이러한 대규모 Transformer 기반 언어 모델의 학습 및 추론 비용은 매우 높아, 더 효율적인 변종 모델을 탐색하는 연구가 절실히 필요하다. 본 연구에서는 통계적 언어 모델링 분야의 기존 연구를 영감으로 삼아, 텍스트 시퀀스의 이산적 잠재 표현에서 생성된 n-그램을 모델에 보완하는 간단하면서도 효과적인 Transformer 아키텍처 수정을 제안한다. 제안한 모델인 N-Grammer을 C4 데이터셋에서 언어 모델링 및 SuperGLUE 데이터셋에서 텍스트 분류 작업에 적용하여 평가한 결과, Transformer 및 Primer와 같은 강력한 베이스라인 모델들을 상회하는 성능을 나타냈다. 본 연구에서는 재현 가능성을 위해 Jax 기반으로 모델을 오픈소스화하였다.