17일 전

MedConceptsQA: 오픈소스 의학 개념 질의응답 벤치마크

Ofir Ben Shoham, Nadav Rappoport
MedConceptsQA: 오픈소스 의학 개념 질의응답 벤치마크
초록

의료 개념 질문 답변을 위한 전용 오픈소스 벤치마크인 MedConceptsQA를 제안한다. 이 벤치마크는 진단, 절차, 약물 등 다양한 의료 개념에 대한 질문을 포함하며, 다양한 용어체계를 반영하고 있다. 질문은 난이도에 따라 쉬움, 보통, 어려움의 세 가지 수준으로 분류된다. 다양한 대규모 언어 모델(Large Language Models, LLMs)을 활용하여 벤치마크를 평가하였다. 그 결과, 의료 데이터로 사전 학습된 임상용 대규모 언어 모델이라도 이 벤치마크에서는 무작위 추측 수준에 가까운 정확도를 보였다. 그러나 GPT-4는 임상용 대규모 언어 모델 대비 제로샷 학습 시 약 27%, 패시샷 학습 시 약 37%의 절대적인 평균 성능 향상을 기록했다. 본 벤치마크는 대규모 언어 모델이 의료 개념을 이해하고 추론하는 능력을 평가하는 데 있어 유용한 자원이 될 수 있다. 본 벤치마크는 다음 주소에서 이용 가능하다: https://huggingface.co/datasets/ofir408/MedConceptsQA

MedConceptsQA: 오픈소스 의학 개념 질의응답 벤치마크 | 최신 연구 논문 | HyperAI초신경