16일 전

LaMini-LM: 대규모 지시로부터 유도된 다양한 소형 모델 집단

Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji
LaMini-LM: 대규모 지시로부터 유도된 다양한 소형 모델 집단
초록

지침 미세조정을 거친 대규모 언어 모델(Large Language Models, LLMs)은 뛰어난 생성 능력을 보여주지만, 자원 소모가 크다는 단점이 있다. 이 문제를 완화하기 위해, 우리는 지침 미세조정된 LLM에서 더 작은 모델로 지식을 증류하는 방식을 탐구한다. 이를 위해 기존 지침과 새로 생성한 지침을 기반으로 총 258만 개의 지침을 철저히 구성하였다. 단순히 규모만 큰 것이 아니라, 다양한 주제를 포괄하도록 지침을 설계함으로써 다양성을 보장하였다. 제안된 지침 데이터셋에 대한 광범위한 분석을 통해 그 다양성이 확인되었으며, 해당 지침에 대한 응답은 gpt-3.5-turbo를 활용하여 생성하였다. 이러한 지침을 기반으로, 인코더-디코더 및 디코더 전용 아키텍처를 모두 포함하는 다양한 크기의 모델들을 미세조정하였으며, 이를 종합적으로 ‘LaMini-LM’이라 명명한다. 우리는 15개의 다양한 자연어 처리(NLP) 벤치마크에서 자동 평가 지표와 인간 평가를 통해 모델의 성능을 평가하였다. 결과적으로 제안하는 LaMini-LM 모델들은 경쟁적인 기준 모델들과 비교해 유사한 성능을 보였으며, 크기가 훨씬 작다는 점에서 효율성을 확보하였다.

LaMini-LM: 대규모 지시로부터 유도된 다양한 소형 모델 집단 | 최신 연구 논문 | HyperAI초신경