다국어 일반화를 위한 다중 작업 미세조정

다중 작업 유도 미세조정(Multitask Prompted Fine-tuning, MTF)은 대규모 언어 모델이 제로샷(zero-shot) 환경에서 새로운 작업으로 일반화하는 데 도움이 된다는 것이 입증되었으나, 현재까지의 MTF 연구는 주로 영어 데이터와 모델에 국한되어 왔다. 본 연구에서는 사전 훈련된 다국어 언어 모델인 BLOOM 및 mT5 모델 가족에 MTF를 적용하여 BLOOMZ와 mT0라는 미세조정된 변형 모델을 개발하였다. 연구 결과, 영어 프롬프트를 사용하여 영어 작업에 대해 대규모 다국어 언어 모델을 미세조정하면, 사전 훈련 코퍼스에만 등장한 비영어 언어에 대해서도 작업 일반화가 가능함을 확인하였다. 또한 영어 프롬프트를 사용하여 다국어 작업에 대해 미세조정하면 영어 및 비영어 작업 모두에서 성능이 향상되어 다양한 제로샷 기준 최고 수준의 결과를 달성하였다. 추가로, 각 데이터셋의 언어에 맞게 영어 프롬프트를 기계 번역한 버전을 사용하여 다국어 작업에 대해 미세조정하는 실험도 수행하였다. 그 결과, 기계 번역된 프롬프트를 사용한 훈련이 해당 언어의 인간 작성 프롬프트에 대한 성능 향상으로 이어짐을 발견하였다. 놀랍게도, 모델이 의도적으로 본 적 없는 언어의 작업에도 제로샷 일반화가 가능함을 확인하였다. 이는 모델이 작업 및 언어에 관계없이 적용 가능한 고차원적인 능력을 학습하고 있음을 시사한다. 또한 본 연구에서는 영어 및 기계 번역된 프롬프트를 사용한 46개 언어의 감독형 데이터셋을 통합한 xP3를 제안한다. 본 연구의 코드, 데이터셋 및 모델은 https://github.com/bigscience-workshop/xmtf 에서 자유롭게 이용 가능하다.