9일 전
작은 전문 언어 모델이 필요하세요? 미리 계획하세요!
David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun

초록
대규모 언어 모델은 유용한 도구이지만, 작은 추론 예산(small inference budget)에는 적합하지 않다. 반면에 소규모 모델은 추론 효율성이 뛰어나지만, 그 용량이 낮기 때문에 특정 전문 분야에 한정된 범위에서만 우수한 성능을 발휘할 수 있다. 본 논문은 일반적인 사전 훈련 데이터셋과 제한된 전문 분야 데이터를 활용하여 우수한 전문 소규모 언어 모델을 어떻게 얻을 수 있는지 탐구한다. 우리는 두 가지 상황을 고려한다. 첫째, 각 전문 작업에 대해 별도의 사전 훈련을 수행할 수 있는 경우(즉, 사전 훈련 비용을 감수할 수 있는 경우), 둘째, 하나의 사전 훈련된 모델을 저비용으로 각 작업에 적응시키고자 하는 경우이다. 첫 번째 상황에서는 중요도 샘플링(importance sampling) 기반의 효과적인 해결책을 제안한다. 이 방법은 사전 훈련 데이터셋을 재표집하여 전문 데이터의 분포를 모방하고, 이를 바탕으로 소규모 모델을 훈련한다. 두 번째 상황에서는 새로운 아키텍처인 투영 네트워크(Projection Networks, PN)를 제안한다. PN은 대규모 네트워크이지만, 파라미터를 선형적으로 투영함으로써 소규모 네트워크로 전환하여 특정화할 수 있다. 두 상황 모두에서 다양한 도메인, 훈련 데이터 크기, 훈련 예산에 대해 제안하는 방법의 실증적 효과를 입증한다.