메디스위프트: 효율적인 희소 사전학습 생물의학 언어 모델

대규모 언어 모델(Large Language Models, LLMs)은 일반적인 소스 데이터를 다양한 도메인에서 훈련하는 것이 일반적이지만, 최근 도메인 특화 LLM의 급증은 특정 도메인 작업(예: 생의학)에서 일반 목적 모델을 능가할 수 있는 잠재력을 보여주고 있다. 도메인 특화 사전 훈련은 효율성을 높이고 모델 크기를 작게 만드는 데 기여하지만, 이러한 LLM을 훈련하는 데 드는 계산 비용은 여전히 높아 예산 측면에서 도전 과제를 안고 있다. 본 연구에서는 생의학 텍스트 데이터에 대해 희소 사전 훈련(sparse pre-training)을 활용하는 생의학용 LLM인 MediSwift을 제안한다. 사전 훈련 단계에서 최대 75%의 가중치 희소성(weight sparsity)를 유도함으로써 MediSwift은 훈련 FLOPs(Floating Point Operations)를 2~2.5배 감소시켰다. 특히, 모든 희소 사전 훈련은 구조적 가중치 희소성의 가속 효과를 실현할 수 있도록 설계된 Cerebras CS-2 시스템에서 수행되었으며, 이는 MediSwift 모델의 효율성을 크게 향상시켰다. 이후 밀집형(fine-tuning) 조정과 전략적 소프트 프롬프팅(soft prompting)을 통해 MediSwift 모델은 기존 7B 파라미터 규모의 LLM들을 초월하여 생의학 작업에서 뛰어난 성능을 발휘하며, PubMedQA와 같은 작업에서 효율성-정확도 측면에서 새로운 기준을 설정했다. 본 연구 결과는, 희소 사전 훈련과 밀집형 조정, 소프트 프롬프팅의 조합이 전문 도메인 내에서 고성능이며 계산적으로 효율적인 모델을 구축하는 효과적인 방법임을 보여준다.