2달 전

mGPT: 소수 샷 학습자가 다국어로 발전

Oleh Shliazhko; Alena Fenogenova; Maria Tikhonova; Vladislav Mikhailov; Anastasia Kozlova; Tatiana Shavrina
mGPT: 소수 샷 학습자가 다국어로 발전
초록

최근 연구에 따르면 자기 회귀 언어 모델이 제로 샷 및 소수 샷 학습 패러다임을 통해 많은 자연어 처리(NLP) 작업을 성공적으로 해결할 수 있다고 보고되고 있습니다. 이는 사전 훈련된 언어 모델의 사용에 새로운 가능성을 열어주고 있습니다. 본 논문에서는 위키백과와 거대한 정제된 크롤링 코퍼스를 사용하여 25개 언어 가족에서 60개 언어로 훈련된 13억 개와 130억 개 매개변수를 가진 두 가지 자기 회귀 GPT 유사 모델을 소개합니다. 우리는 GPT-2 소스를 사용하여 GPT-3 아키텍처를 재현하고, 드문 주의 메커니즘(sparse attention mechanism)을 적용하였습니다. Deepspeed 및 Megatron 프레임워크는 훈련 및 추론 단계를 효과적으로 병렬화하는 데 활용되었습니다. 결과적으로 생성된 모델들은 Facebook이 최근 발표한 XGLM 모델들과 비슷한 성능을 보여주며, CIS 국가들의 저자원 언어와 러시아 소수 민족 언어의 NLP 가능성 강화에 기여하고 있습니다.본 논문에서는 아키텍처 설계 선택의 동기를 상세히 설명하며, 데이터 준비 파이프라인을 철저히 설명하고, 가장 최적의 다국어 토큰화 전략을 선택하기 위해 모델의 다섯 가지 작은 버전을 훈련하였습니다. 모든 포함된 언어에서 모델의 혼동도(perplexity)를 측정하였으며, 분류, 생성, 시퀀스 라벨링 및 지식 탐색 등 다양한 다국어 작업에서 평가하였습니다. 모델은 제로 샷 및 소수 샷 방법으로 평가되었으며, 또한 최신 다국어 모델 XGLM과 분류 작업에서 비교되었습니다. 소스 코드와 mGPT XL 모델은 공개적으로 배포되었습니다.

mGPT: 소수 샷 학습자가 다국어로 발전 | 최신 연구 논문 | HyperAI초신경