대규모 언어 모델은 임상 지식을 인코딩한다

대규모 언어 모델(Large Language Models, LLMs)은 자연어 이해 및 생성 분야에서 놀라운 능력을 보여주고 있으나, 의료 및 임상 응용 분야에 있어서는 높은 품질 기준이 요구된다. 현재까지 모델의 임상 지식을 평가하기 위한 시도는 주로 제한된 벤치마크에서 자동화된 평가에 의존하고 있으며, 다양한 작업에 걸쳐 모델의 예측 및 추론을 평가할 수 있는 표준이 부족한 실정이다. 이를 해결하기 위해, 우리는 전문 의료 시험, 연구, 소비자 질문을 아우르는 여섯 가지 기존 오픈형 질의응답 데이터셋을 결합한 MultiMedQA를 제안한다. 또한, 온라인에서 실제로 검색된 의료 질문을 기반으로 한 새로운 자유형 응답 데이터셋인 HealthSearchQA도 도입한다. 본 연구에서는 사실성, 정확성, 잠재적 피해, 편향 등 다양한 축을 기준으로 모델 답변을 인간 평가하는 프레임워크를 제안한다. 추가적으로, PaLM(5400억 파라미터를 갖춘 LLM)과 그 지시어 튜닝된 변형 모델인 Flan-PaLM을 MultiMedQA에서 평가하였다. 다양한 프롬프팅 전략을 조합한 결과, Flan-PaLM은 MultiMedQA의 모든 다중선택형 데이터셋(MedQA, MedMCQA, PubMedQA, MMLU 임상 주제)에서 최고 성능을 기록하였으며, 특히 MedQA(미국 의학면허시험 질문)에서 67.6%의 정확도를 달성하여 기존 최고 성능을 17% 이상 상회했다. 그러나 인간 평가 결과는 Flan-PaLM의 답변에 있어 핵심적인 한계가 존재함을 드러냈다. 이를 해결하기 위해, 소수의 예시를 활용하여 LLM을 새로운 도메인에 효과적으로 맞추는 파라미터 효율적인 접근 방식인 지시어 프롬프트 튜닝(instruction prompt tuning)을 도입한다. 이 과정을 통해 도출된 모델인 Med-PaLM은 유망한 성능을 보였으나, 여전히 임상 전문가 수준에는 미치지 못했다. 본 연구는 모델 규모 확대와 지시어 프롬프트 튜닝이 이해력, 지식 재현력, 의료적 추론 능력 향상에 기여함을 보여주며, LLM이 의료 분야에서 활용될 가능성을 시사한다. 인간 평가를 통해 오늘날의 모델들이 겪는 중요한 한계를 밝혀낸 본 연구는, 임상 응용을 위한 안전하고 유용한 LLM 모델 개발을 위해 평가 프레임워크와 방법론 개발의 중요성을 강조한다.