지침 튜닝에 비해 전문 언어 모델 훈련의 이점 탐구

최근에 다수의 작업에 대해 지시어를 기반으로 미세조정된 언어 모델(Language Models, LMs), 즉 다중 작업 지시어 미세조정(Multitask-prompted Fine-tuning, MT)을 거친 모델들이 예상치 못한 작업으로의 일반화 능력을 보여주고 있다. 기존 연구들은 훈련 작업 수를 늘리는 것이 더 강력한 MT LMs를 만드는 핵심 요소임을 밝혀냈다. 본 연구에서는 예상치 못한 발견을 보고한다. 단 하나의 작업에 대해 미세조정된 전문가 모델(Expert LM)이 300개 이상의 서로 다른 작업에 대해 미세조정된 MT 모델보다 11개의 새로운 데이터셋에서 평균 정확도 3.20% 향상, 그리고 BIG-bench 벤치마크의 13개 데이터셋에서 평균 정확도 1.29% 향상되는 결과를 보였다. 이 발견은 과거에 널리 받아들여진 '작업 수를 늘리면 MT LMs가 더 강해진다'는 믿음에 의문을 제기한다. 이러한 발견을 바탕으로, 각 훈련 작업마다 별도의 전문가 LM을 훈련시키는 분산적 접근 방식이 단일 MT LM을 사용하는 제로샷 추론보다 많은 장점을 가짐을 추가로 보여준다. 그 장점은 다음과 같다. (1) 지시어 미세조정 과정에서 흔히 발생하는 부정적 작업 전이(negative task transfer)를 피할 수 있으며, (2) 기존 작업에 대해 다시 훈련하지 않고도 지속적으로 새로운 작업을 학습할 수 있어 치명적인 잊혀짐(catastrophic forgetting)을 방지할 수 있으며, (3) 개별 전문가 모델을 결합할 때 구성적 능력(compositional capabilities)을 보여줄 수 있다. 코드는 https://github.com/joeljang/ELM 에 공개되어 있다.