소형 언어 모델이 의학 교과서로부터 향상된 추론 능력을 학습한다

최근 상용 대규모 언어모델(LM)의 발전은 의료 분야에서 유망한 성과를 보여주고 있으나, 이러한 모델들이 폐쇄형 구조를 가지고 있어 개인정보 보호 및 보안 측면에서 심각한 우려를 낳고 있으며, 이는 의료 분야에서의 광범위한 활용을 저해하고 있다. 오픈소스 모델 개발을 위한 여러 시도가 있었음에도 불구하고, 파라미터 수가 제한되어 있어 복잡한 의료 문제를 해결하기 위해 요구되는 다단계 추론 능력이 부족한 경우가 많았다. 이를 해결하기 위해 우리는 70억에서 700억 파라미터 규모를 가진 새로운 의료 AI 시스템인 Meerkat을 소개한다. 본 모델들은 18권의 의학 교과서에서 수집한 고품질의 사고 흐름(chain-of-thought) 경로를 기반으로 한 새로운 합성 데이터셋과 다양한 지시 따르기(instruction-following) 데이터셋을 활용해 훈련되었다. Meerkat 시스템은 여섯 가지 의료 벤치마크에서 뛰어난 정확도를 기록하며, 기존 최고 수준의 모델인 MediTron, BioMistral, GPT-3.5를 크게 앞서며 성과를 내었다. 특히 Meerkat-7B는 70억 파라미터 모델 중 최초로 미국 의학면허시험(USMLE) 합격 기준을 돌파했으며, Meerkat-70B는 GPT-4보다 평균 1.3% 높은 성능을 보였다. 또한 Meerkat-70B는 38건의 복잡한 임상 사례 중 21건을 정확히 진단했으며, 인간 전문가의 13.8점과 비교해 뛰어난 성과를 보였고, GPT-4의 21.8점과 매우 유사한 수준을 기록했다. 기존 소규모 모델들과 비교해 임상 질문에 대해 더 구체적이고 자유형(free-form)의 응답을 제공함으로써, 대규모 상용 모델 수준의 성능에 근접하는 결과를 보였다. 이는 대규모 언어모델과의 성능 격차를 크게 좁히며, 복잡한 의료 과제 해결에 있어 본 시스템의 효과성을 입증한다.