11일 전
대규모 언어 모델(LLM)은 의학적 질문에 대해 추론할 수 있는가?
Valentin Liévin, Christoffer Egeberg Hother, Andreas Geert Motzfeldt, Ole Winther

초록
대규모 언어 모델(Large Language Models, LLMs)은 종종 인상적인 출력을 생성하지만, 강한 추론 능력과 전문 분야 지식이 요구되는 실제 세계 시나리오에서의 성능에 대해서는 여전히 명확하지 않다. 본 연구에서는 GPT-3.5, LLama-2 등 대표적인 종류의 클로즈드 소스 및 오픈소스 모델이 실제 세계 기반의 복잡한 질문에 대해 답변하고 추론할 수 있는지 여부를 탐구하였다. 우리는 세 가지 인기 있는 의료 분야 벤치마크(MedQA-USMLE, MedMCQA, PubMedQA)와 다양한 프롬프팅 전략(Chain-of-Thought, CoT; Few-shot; Retrieval 증강)을 중심으로 분석을 수행하였다. 생성된 CoT에 대해 전문가가 주관적 평가를 수행한 결과, InstructGPT는 종종 전문 지식을 정확히 읽고 추론하며 기억하는 능력을 보였다. 마지막으로, 프롬프트 엔지니어링의 최근 발전(소수 샘플 및 앙상블 기법)을 활용하여, GPT-3.5가 보정된 예측 분포를 생성함과 동시에 세 가지 데이터셋에서 합격 기준을 달성함을 입증하였다. 각각 MedQA-USMLE 60.2%, MedMCQA 62.7%, PubMedQA 78.2%의 정확도를 기록하였다. 오픈소스 모델도 성능 격차를 좁히고 있으며, Llama-2 70B 모델 역시 MedQA-USMLE에서 62.5%의 정확도로 합격 기준을 달성하였다.