AlexaTM 20B: 대규모 다국어 Seq2Seq 모델을 활용한 소수 샘플 학습

이 연구에서는 다양한 작업에서 디코더 전용 모델보다 다국어 대규모 시퀀스-투-시퀀스(seq2seq) 모델이 훨씬 더 효율적인 소량 학습(few-shot learning) 능력을 갖는다는 점을 입증한다. 특히, 노이즈 제거와 인과적 언어 모델링(Causal Language Modeling, CLM) 작업의 혼합 데이터셋으로 사전 훈련된 200억 파라미터 규모의 다국어 seq2seq 모델인 Alexa Teacher Model(AlexaTM 20B)을 개발하였으며, 이 모델이 1-샷 요약(task)에서 기존의 5400억 파라미터 규모의 PaLM 디코더 모델보다 뛰어난 성능을 보이며 최고 수준(SOTA)의 성과를 달성함을 보였다. 또한 AlexaTM 20B는 Flores-101 데이터셋에서 모델이 지원하는 거의 모든 언어 쌍(아랍어, 영어, 프랑스어, 독일어, 힌디어, 이탈리아어, 일본어, 마라티어, 포르투갈어, 스페인어, 타밀어, 텔루구어)에 대해 1-샷 기계 번역에서도 SOTA 성능을 기록하였으며, 특히 자원이 부족한 언어에 있어서 뛰어난 성능을 보였다. 더 나아가 제로샷(zero-shot) 설정에서도 AlexaTM 20B는 GPT-3(1750억 파라미터)보다 SuperGLUE 및 SQuADv2 데이터셋에서 더 뛰어난 성능을 보였으며, XNLI, XCOPA, Paws-X, XWinograd와 같은 다국어 작업에서도 최고 수준의 성능을 제공하였다. 종합적으로 본 연구 결과는 대규모 언어 모델(LLM) 훈련의 맥락에서 seq2seq 모델이 디코더 전용 모델에 대한 강력한 대안이 될 수 있음을 설득력 있게 제시한다.