11일 전
MAD-X: 다중 작업 다국어 전이를 위한 어댑터 기반 프레임워크
Jonas Pfeiffer, Ivan Vulić, Iryna Gurevych, Sebastian Ruder

초록
최신의 사전 훈련된 다국어 모델, 예를 들어 다국어 BERT와 XLM-R의 주요 목적은 제로샷 또는 희소샷의 교차 언어 전이를 통해 자원이 부족한 언어에서 자연어 처리(NLP) 응용을 가능하게 하고 기반을 마련하는 것이다. 그러나 모델의 용량이 제한되어 있어, 사전 훈련 과정에서 보지 못한 저자원 언어나 저자원 언어에서의 전이 성능은 오히려 가장 낮은 편이다. 본 연구에서는 모듈러한 언어 및 작업 표현을 학습함으로써 임의의 작업과 언어로 높은 이식성과 파라미터 효율적인 전이를 가능하게 하는 어댑터 기반의 프레임워크인 MAD-X를 제안한다. 또한, 새로운 언어에 사전 훈련된 다국어 모델을 적응시키기 위한 강력한 기준선 방법과 함께, 새로운 역전이 가능한 어댑터 아키텍처를 도입한다. MAD-X는 명명된 엔터티 인식(NER)과 인과적 일반지식 추론(task)에서 타입학적으로 다양한 언어의 대표적인 집합에 대해 기존 최고 성능을 초월하며, 질의응답(QA) 작업에서도 경쟁 가능한 성과를 달성한다. 본 연구의 코드와 어댑터는 AdapterHub.ml에서 공개되어 있다.