2달 전

MultiFiT: 효율적인 다국어 언어 모델 미세 조정

Julian Martin Eisenschlos; Sebastian Ruder; Piotr Czapla; Marcin Kardas; Sylvain Gugger; Jeremy Howard

초록

事전 학습 언어 모델은 라벨링되지 않은 데이터만을 필요로 하기 때문에 저자원 언어에 대해 특히 유망합니다. 그러나 기존 모델의 학습에는 막대한 양의 컴퓨팅 자원이 필요하며, 사전 학습된 다국어 모델은 종종 저자원 언어에서 성능이 부족합니다. 본 연구에서는 실무자가 자신의 언어에서 효율적으로 언어 모델을 학습하고 미세 조정(fine-tuning)할 수 있도록 다국어 언어 모델 미세 조정(MultiFiT) 방법을 제안합니다. 또한, 기존의 사전 학습된 다국어 모델을 사용하는 제로샷(zero-shot) 방법도 제안합니다. 우리는 두 가지 널리 사용되는 다국어 분류 데이터셋에서 이 방법들을 평가하였으며, 이들은 수십 배 많은 데이터와 컴퓨팅 자원으로 사전 학습된 모델들보다 우수한 성능을 보였습니다. 모든 모델과 코드를 공개합니다.