17일 전

대규모 언어 모델의 생물의학적 언어 이해 및 추론 벤치마크에서의 성능 평가

{Christina Mack, Khaldoun Zine El Abidine, Jay Nanavati, Katharine Roth, Kathryn Rough, Rodrigo de Oliveira, Matthew Garber, Jude LaFleur, Francesco Ronzano, Hui Feng}
대규모 언어 모델의 생물의학적 언어 이해 및 추론 벤치마크에서의 성능 평가
초록

배경대규모 언어 모델(Large Language Models, LLMs)이 인간과 유사한 텍스트를 해석하고 생성할 수 있는 능력은 의학 및 임상 연구 분야에서의 응용 가능성을 제기해 왔다. 그러나 특정 활용 사례에 적합한지에 대한 근거 기반 결정을 지원할 수 있는 충분한 데이터는 여전히 부족한 실정이다.방법우리는 13개의 데이터셋(생명의학적 언어 이해 및 추론 벤치마크, Biomedical Language Understanding and Reasoning Benchmark, BLURB)을 대상으로 네 가지 일반 목적의 LLM(GPT-4, GPT-3.5-turbo, Flan-T5-XXL, Zephyr-7B-Beta)과 의료 전용 LLM(MedLLaMA-13B)을 평가하고 비교하였다. BLURB는 의료 분야에서 자주 요구되는 6가지 자연어 처리(NLP) 작업을 포함한다: 명명된 엔티티 인식(Named Entity Recognition, NER), 관계 추출, 인구집단·개입·비교군·결과지표(PICO) 구조 추출, 문장 유사도 평가, 문서 분류, 질문-답변(QA) 작업이다. 모든 모델은 수정 없이 평가되었으며, 평가에는 표준적인 작업별 평가 지표를 사용하였고, 다양한 프롬프트 전략(체계적이고 재사용 가능한 프롬프트 프레임워크로 체계화)을 적용하였다.결과모든 작업에서 GPT-4가 다른 LLM들보다 우수한 성능을 보였으며, 그 다음으로 Flan-T5-XXL과 GPT-3.5-turbo, 그 다음으로 Zephyr-7B-Beta와 MedLLaMA-13B가 뒤를 이었다. GPT-4와 Flan-T5-XXL에 대해 가장 높은 성능을 보인 프롬프트는 기존에 보고된 PubMedQA 작업의 최고 성과를 초과하였다. 의료 전용 모델인 MedLLaMA-13B는 대부분의 작업에서 낮은 점수를 기록했으나, 질문-답변 작업에서는 비교적 우수한 성능을 보였다. 특히, 작업을 설명하는 프롬프트를 전략적으로 수정할 경우 성능에 상당한 영향을 미치며, 입력 텍스트와 의미적으로 유사한 예시를 프롬프트에 포함할 경우 일관된 성능 향상이 관찰되었다.결론이러한 결과는 LLM이 의료 분야에 활용될 수 있는 잠재력을 보여주며, 특정 활용 사례에 LLM을 도입하기 전에 철저한 평가의 중요성을 강조한다. 앞으로 이러한 새로운 기술이 의료 환경에 어떻게 적응될 수 있는지, 전문가의 지혜와 결합되며 품질 관리 조치를 통해 어떻게 향상될 수 있는지를 지속적으로 탐색하는 연구가 필요하다. 이는 의료 분야에서 LLM을 책임감 있게 혁신적으로 활용하기 위한 중요한 기반을 마련할 것이다.

대규모 언어 모델의 생물의학적 언어 이해 및 추론 벤치마크에서의 성능 평가 | 최신 연구 논문 | HyperAI초신경