11일 전

대규모 언어 모델(LLM)은 의학적 질문에 대해 추론할 수 있는가?

Valentin Liévin, Christoffer Egeberg Hother, Andreas Geert Motzfeldt, Ole Winther
대규모 언어 모델(LLM)은 의학적 질문에 대해 추론할 수 있는가?
초록

대규모 언어 모델(Large Language Models, LLMs)은 종종 인상적인 출력을 생성하지만, 강한 추론 능력과 전문 분야 지식이 요구되는 실제 세계 시나리오에서의 성능에 대해서는 여전히 명확하지 않다. 본 연구에서는 GPT-3.5, LLama-2 등 대표적인 종류의 클로즈드 소스 및 오픈소스 모델이 실제 세계 기반의 복잡한 질문에 대해 답변하고 추론할 수 있는지 여부를 탐구하였다. 우리는 세 가지 인기 있는 의료 분야 벤치마크(MedQA-USMLE, MedMCQA, PubMedQA)와 다양한 프롬프팅 전략(Chain-of-Thought, CoT; Few-shot; Retrieval 증강)을 중심으로 분석을 수행하였다. 생성된 CoT에 대해 전문가가 주관적 평가를 수행한 결과, InstructGPT는 종종 전문 지식을 정확히 읽고 추론하며 기억하는 능력을 보였다. 마지막으로, 프롬프트 엔지니어링의 최근 발전(소수 샘플 및 앙상블 기법)을 활용하여, GPT-3.5가 보정된 예측 분포를 생성함과 동시에 세 가지 데이터셋에서 합격 기준을 달성함을 입증하였다. 각각 MedQA-USMLE 60.2%, MedMCQA 62.7%, PubMedQA 78.2%의 정확도를 기록하였다. 오픈소스 모델도 성능 격차를 좁히고 있으며, Llama-2 70B 모델 역시 MedQA-USMLE에서 62.5%의 정확도로 합격 기준을 달성하였다.

대규모 언어 모델(LLM)은 의학적 질문에 대해 추론할 수 있는가? | 최신 연구 논문 | HyperAI초신경