대규모 언어 모델을 활용한 전문가 수준의 의료 질문 응답 연구

최근 인공지능(AI) 시스템은 체스부터 단백질 접힘에 이르기까지 '거대한 도전 과제'에서 중요한 성과를 달성해왔다. 의료 지식을 검색하고 이를 추론하며 의사 수준으로 의료 질문에 답변할 수 있는 능력은 오랫동안 이러한 거대한 도전 과제 중 하나로 여겨져 왔다.대규모 언어 모델(LLM)은 의료 질문 응답 분야에서 획기적인 진전을 이끌어내고 있다. Med-PaLM은 MedQA 데이터셋에서 US 의료면허시험(USMLE) 형식의 문제에 대해 67.2%의 점수를 기록하며, 처음으로 '합격 기준'을 초과하는 성과를 달성했다. 그러나 이와 같은 이전 연구들은 모델의 답변이 임상의의 답변과 비교했을 때 여전히 개선 여지가 크다는 점을 시사했다. 이번 연구에서는 기반 LLM의 개선(PaLM 2), 의료 분야 전용 미세조정, 그리고 새로운 앙상블 개선 전략을 포함한 프롬프팅 기법을 결합함으로써 이러한 격차를 해소한 Med-PaLM 2를 제안한다.Med-PaLM 2는 MedQA 데이터셋에서 최대 86.5%의 성능을 기록하며, Med-PaLM 대비 19% 이상 향상시키며 새로운 최고 성능 기준을 수립했다. 또한 MedMCQA, PubMedQA, MMLU 임상 주제 데이터셋에서도 상태 최고 수준에 근접하거나 이를 초월하는 성능을 보였다.우리는 임상 적용과 관련된 다양한 축을 기준으로 장문형 질문에 대한 철저한 인간 평가를 수행했다. 1,066개의 소비자 의료 질문에 대해 의사들이 두 답변을 대조 평가한 결과, Med-PaLM 2의 답변이 임상적 활용성과 관련된 9개 축 중 8개에서 의사들의 답변보다 선호되었으며, 통계적으로 유의미한 차이(p < 0.001)를 보였다. 또한, LLM의 한계를 탐지하기 위해 새로 도입한 240개의 장문형 '대립형(Adversarial)' 질문 데이터셋에서 Med-PaLM에 비해 모든 평가 축에서 유의미한 개선(모든 p < 0.001)을 관찰했다.실제 임상 환경에서 이러한 모델의 효과성을 검증하기 위한 추가 연구가 필요하지만, 본 결과는 의료 질문 응답 분야에서 의사 수준의 성능에 빠르게 도달하고 있음을 시사한다.