11일 전

지침 튜닝에 비해 전문 언어 모델 훈련의 이점 탐구

Joel Jang, Seungone Kim, Seonghyeon Ye, Doyoung Kim, Lajanugen Logeswaran, Moontae Lee, Kyungjae Lee, Minjoon Seo
지침 튜닝에 비해 전문 언어 모델 훈련의 이점 탐구
초록

최근에 다수의 작업에 대해 지시어를 기반으로 미세조정된 언어 모델(Language Models, LMs), 즉 다중 작업 지시어 미세조정(Multitask-prompted Fine-tuning, MT)을 거친 모델들이 예상치 못한 작업으로의 일반화 능력을 보여주고 있다. 기존 연구들은 훈련 작업 수를 늘리는 것이 더 강력한 MT LMs를 만드는 핵심 요소임을 밝혀냈다. 본 연구에서는 예상치 못한 발견을 보고한다. 단 하나의 작업에 대해 미세조정된 전문가 모델(Expert LM)이 300개 이상의 서로 다른 작업에 대해 미세조정된 MT 모델보다 11개의 새로운 데이터셋에서 평균 정확도 3.20% 향상, 그리고 BIG-bench 벤치마크의 13개 데이터셋에서 평균 정확도 1.29% 향상되는 결과를 보였다. 이 발견은 과거에 널리 받아들여진 '작업 수를 늘리면 MT LMs가 더 강해진다'는 믿음에 의문을 제기한다. 이러한 발견을 바탕으로, 각 훈련 작업마다 별도의 전문가 LM을 훈련시키는 분산적 접근 방식이 단일 MT LM을 사용하는 제로샷 추론보다 많은 장점을 가짐을 추가로 보여준다. 그 장점은 다음과 같다. (1) 지시어 미세조정 과정에서 흔히 발생하는 부정적 작업 전이(negative task transfer)를 피할 수 있으며, (2) 기존 작업에 대해 다시 훈련하지 않고도 지속적으로 새로운 작업을 학습할 수 있어 치명적인 잊혀짐(catastrophic forgetting)을 방지할 수 있으며, (3) 개별 전문가 모델을 결합할 때 구성적 능력(compositional capabilities)을 보여줄 수 있다. 코드는 https://github.com/joeljang/ELM 에 공개되어 있다.

지침 튜닝에 비해 전문 언어 모델 훈련의 이점 탐구 | 최신 연구 논문 | HyperAI초신경