13일 전

mT5: 대규모 다국어 사전 훈련된 텍스트-투-텍스트 트랜스포머

Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel
mT5: 대규모 다국어 사전 훈련된 텍스트-투-텍스트 트랜스포머
초록

최근에 발표된 '텍스트-텍스트 전이 트랜스포머'(Text-to-Text Transfer Transformer, T5)는 통일된 텍스트-텍스트 형식과 확장성을 활용하여 영어 기반 자연어 처리(NLP) 작업들에서 최고 성능을 달성했다. 본 논문에서는 101개 언어를 포괄하는 새로운 커먼 크롤(Coherent Crawl) 기반 데이터셋을 기반으로 사전 훈련된 다국어 버전인 mT5를 소개한다. 우리는 mT5의 설계 및 수정된 훈련 방식을 상세히 설명하고, 다양한 다국어 벤치마크에서 최고 성능을 보여주는 결과를 제시한다. 또한, 제로샷(zero-shot) 설정에서 생성 모델이 예측을 잘못된 언어로 부분적으로 번역하는 '의도하지 않은 번역'(accidental translation) 현상을 방지하기 위한 간단한 기법을 제시한다. 본 연구에서 사용된 모든 코드와 모델 체크포인트는 공개되어 있다.