ACL 2025: 옥스포드 대학교와 다른 대학들이 의료 GraphRAG를 제안하여 질문 답변 정확도에서 새로운 기록을 세우고 11개 데이터 세트에서 SOTA 결과를 달성

의학 분야의 지식 체계는 수천 년에 걸친 발견과 축적을 기반으로 구축되어 있으며, 방대한 원리, 개념, 그리고 실질적인 규범을 포괄합니다. 이러한 지식을 현재의 대규모 언어 모델의 제한된 맥락에 효과적으로 적용하는 것은 극복하기 어려운 기술적 장애물에 직면합니다. 지도 미세 조정(SFT)이 대안을 제시하지만, 대부분의 상용 모델의 폐쇄형 소스 특성으로 인해 이 접근법은 비용이 많이 들 뿐만 아니라 실제로는 매우 비실용적입니다. 또한, 의학 분야는 용어의 정확성과 사실의 엄밀성에 대한 요구가 매우 높습니다. 비전문가 사용자에게는 의학 관련 답변에 대한 대규모 모델의 정확성을 검증하는 것 자체가 매우 어려운 작업입니다. 따라서 대규모 모델이 의료 응용 분야에서 복잡한 추론을 위해 대규모 외부 데이터 세트를 활용하고, 검증 가능한 출처를 통해 뒷받침되는 정확하고 신뢰할 수 있는 답변을 생성할 수 있도록 하는 방법이 이 분야의 현재 연구에서 핵심 과제가 되었습니다.
검색 향상 생성(RAG) 기술의 등장은 위의 문제를 해결하는 새로운 접근 방식을 제공합니다.모델을 추가로 학습시키지 않고도 특정 또는 비공개 데이터 세트를 사용하여 사용자 쿼리에 응답할 수 있습니다.그러나 기존 RAG는 새로운 통찰력을 종합하고 광범위한 문서에 대한 전체적인 이해가 필요한 작업을 처리하는 데 여전히 부족합니다. 최근 제안된 GraphRAG는 LLM을 활용하여 원시 문서에서 지식 그래프를 구성하고, 이 그래프를 기반으로 지식을 검색하여 답변을 개선함으로써 복잡한 추론에서 기존 RAG보다 훨씬 우수한 성능을 보입니다. 그러나 GraphRAG의 그래프 구성은 답변의 진위성과 신뢰성을 보장하기 위한 구체적인 설계가 부족하며, 계층적 커뮤니티 구축 프로세스는 범용적인 특성으로 인해 비용이 많이 들기 때문에 의료 분야에 직접적이고 효과적으로 적용하기 어렵습니다.
이러한 상황을 해결하기 위해 옥스퍼드 대학교, 카네기 멜론 대학교, 에든버러 대학교의 합동 팀은 의료 분야를 위한 그래프 기반 RAG 방법인 Medical GraphRAG(MedGraphRAG)를 제안했습니다.이 방법은 증거 기반의 답변과 공식 의학 용어에 대한 설명을 생성하여 의학 분야에서 LLM의 성과를 효과적으로 개선합니다. 이는 답변의 신뢰성을 높일 뿐만 아니라 전반적인 품질을 크게 개선합니다.
"의료 그래프 RAG: 그래프 검색 증강 생성을 통한 안전한 의료 대규모 언어 모델을 향하여"라는 제목의 관련 연구 결과가 ACL 2025에 선정되었습니다.
연구 하이라이트:
* 이 연구에서는 의료 분야에 사용하기 위해 Tukey RAG 프레임워크를 처음으로 제안했습니다.
* 본 연구에서는 대규모 언어 모델(LLM)이 전체 RAG 데이터를 효율적으로 활용하고 증거 기반 답변을 생성할 수 있도록 고유한 트리플 그래프 구성과 U-검색 방법을 개발했습니다.
* MedGraphRAG는 다른 검색 방법보다 성능이 뛰어나고, 여러 의료 질문 답변 벤치마크에서 의료 전문 대규모 언어 모델을 세부적으로 조정했습니다.

서류 주소:
더 많은 AI 프런티어 논문:
3가지 유형의 데이터를 기반으로 한 연구
이 연구에 사용된 데이터는 세 가지 범주로 나뉘며, 각 유형의 특징은 연구에서의 역할에 적합합니다.
* RAG 데이터
사용자가 자주 업데이트되는 개인 데이터(예: 환자 전자 의료 기록)를 사용할 수 있다는 점을 고려하여, 본 연구에서는 실제 응용 프로그램에서 동적으로 변경되는 개인 데이터 시나리오를 시뮬레이션하고 이 방법의 실용성을 검증하기 위한 기반을 제공할 수 있는 공공 전자 건강 기록 데이터 세트인 MIMIC-IV를 선택했습니다.
* 저장소 데이터
이 데이터셋은 대규모 모델의 답변에 대한 신뢰할 수 있는 출처와 권위 있는 어휘 정의를 제공하는 데 사용됩니다. 상위 저장소 데이터는 MedC-K로, 480만 건의 생의학 학술 논문, 3만 권의 교과서, 그리고 FakeHealth와 PubHealth의 모든 근거 기반 출판물을 포함합니다. 이 데이터는 광범위한 내용을 포괄하며 학문적으로 권위 있습니다. 기반 저장소 데이터는 UMLS 그래프로, 의학 용어의 정확성을 보장하기 위해 권위 있는 의학 어휘와 의미 관계를 포함하고 있습니다.
* 테스트 데이터
이 데이터 세트는 MultiMedQA(MedQA, MedMCQA, PubMedQA, MMLU 임상 주제 등)의 9개 객관식 생물의학 데이터 세트의 테스트 부분을 포함하여 MedGraphRAG 방법의 성능을 평가하는 데 사용되며, 일상적인 의료 질문에 대한 답변에서 이 방법의 성능을 테스트하는 데 사용됩니다. 2개의 공중 보건 사실 검증 데이터 세트인 FakeHealth와 PubHealth는 이 방법의 증거 기반 답변 능력을 평가하는 데 사용됩니다. 또한 이 연구에서는 희귀 질환과 소수자 건강과 같은 광범위한 주제를 다루는 50개의 실제 임상 질문이 포함된 DiverseHealth 테스트 세트도 수집했으며, 건강 형평성에 초점을 맞춰 평가 차원을 더욱 풍부하게 할 수 있습니다.
MedGraphRAG: 슬라이딩 윈도우 분할, 레이블 클러스터링 및 U-검색 기반
아래 그림과 같이,MedGraphRAG의 전반적인 워크플로는 주로 세 가지 핵심 링크로 구성됩니다.문서를 기반으로 지식 그래프를 구축하고, 검색을 지원하기 위해 그래프를 구성하고 요약하며, 데이터를 검색하여 사용자 쿼리에 응답합니다.

의료 그래프 구축은 먼저 의미 문서 청킹을 수행하여 문서를 LLM 컨텍스트 제약 조건에 맞는 데이터 청크로 나눕니다.본 연구에서는 문자 분리와 주제 의미 분할을 결합한 하이브리드 방식을 채택했습니다. 즉, 먼저 줄 바꿈으로 문단을 분리한 다음 그래프를 통해 LLM LG를 구성하여 문단과 현재 블록 간의 주제 관련성을 판단하여 블록을 분할할지 여부를 결정합니다.동시에, 노이즈를 줄이기 위해 5세그먼트 슬라이딩 윈도우를 도입하고, 의미 논리와 모델 컨텍스트 제약을 모두 고려하여 블록 분할을 위한 하드 임계값으로 LG 태그 제한을 사용합니다.
블록 분할 후 엔티티 추출 프로세스로 들어갑니다. 엔티티 추출 프롬프트를 사용하는 LG의 도움을 받아 각 블록에서 관련 엔티티를 식별하고, 이름, 유형 및 컨텍스트 설명을 포함하는 구조화된 출력을 생성하여 후속 엔티티 연결을 위한 토대를 마련합니다.정확성을 보장하려면 트리플 링킹이 중요합니다.사용자 RAG 문서를 신뢰할 수 있는 출처와 연결하기 위해 저장소 그래프(RepoGraph)를 구축합니다. 최하위 계층은 의학 어휘와 관계를 포함하는 UMLS 그래프(Med Vocabularies)이고, 상위 계층은 의학 교과서와 학술 논문(Med Books & Papers)으로 구성됩니다. 다음으로, 연구진은 RAG 문서에서 추출한 엔티티를 E1로 정의합니다. 엔티티 간 상관관계를 기반으로 이러한 엔티티는 의학 서적이나 논문에서 추출한 엔티티 E2에 연결됩니다. E2는 UMLS 엔티티 E3에 다시 연결되어 [RAG 엔티티, 출처, 정의]의 삼중 구조를 형성하여 각 엔티티가 명확한 출처와 표준 정의로 추적될 수 있도록 합니다. 그런 다음 관계 연결이 수행됩니다. 관계 인식 힌트가 포함된 LG는 엔티티 내용과 참조를 기반으로 RAG 엔티티 간의 관계를 식별하여 출처 엔티티, 대상 엔티티 및 관계 설명을 포함하는 구문을 생성합니다. 마지막으로, 각 데이터 블록에 대해 방향성 메타의료 그래프가 생성됩니다.
그래프를 작성한 후에는 그래프에 태그를 지정하여 검색 효율성을 높여야 합니다.GraphRAG의 비용이 많이 드는 그래프 커뮤니티 구축 방식과 달리, 이 방법은 의학 텍스트의 구조화된 특성을 활용하여 증상, 병력, 신체 기능, 약물 등 미리 정의된 레이블을 사용하여 각 메타의학 그래프를 요약하여 구조화된 레이블 요약을 생성합니다. 이 방법은 레이블 유사도에 기반한 동적 임계값 응집형 계층적 클러스터링을 사용하여 그래프를 그룹화하고 더욱 추상적이고 포괄적인 레이블 요약을 생성합니다. 처음에는 각 그래프를 독립적인 그룹으로 처리합니다. 클러스터 쌍 간의 레이블 유사도를 반복적으로 계산하고, 유사도가 가장 높은 상위 20% 클러스터 쌍을 병합하여 새로운 레이블 요약 계층을 생성합니다. 이 프로세스는 12개 계층으로 제한되어 정확성과 효율성의 균형을 이룹니다.
마지막 U-검색 단계에서는 LLM LR에 응답하여 효율적인 쿼리 응답을 달성합니다.먼저, LR은 사용자 질의에 대한 레이블 요약을 생성합니다. 최상위 레이블부터 시작하여 하향식 정밀도 검색을 통해 가장 유사한 레이블을 계층별로 매칭하여 목표 메타의료 그래프를 찾습니다. 질의와 엔터티 콘텐츠 간의 임베딩 유사도를 기반으로 상위 순위의 엔터티와 가장 가까운 트리플릿 이웃을 검색하고, 이러한 엔터티와 관계를 사용하여 초기 답변을 생성합니다. 다음으로, 상향식 답변 정제 단계가 시작됩니다. LR은 이전 계층의 레이블 요약을 기반으로 답변을 조정합니다. 이 프로세스는 목표 수준(일반적으로 4~6개 계층)에 도달할 때까지 반복되며, 궁극적으로 전역적 맥락 인식과 검색 효율성의 균형을 이루는 답변을 생성합니다.
MedGraphRAG: SOTA 달성을 위해 6개 모델과 11개 데이터 세트에서 검증됨
MedGraphRAG의 성능을 검증하기 위해 이 연구에서는 6개의 대규모 언어 모델을 선택하고 Llama2(13B, 70B), Llama3(8B, 70B), Gemini-pro 및 GPT-4를 포함한 여러 실험 세트를 설계했습니다.주요 비교 대상은 LangChain이 구현한 표준 RAG와 Microsoft Azure가 구현한 GraphRAG입니다.모든 방법은 동일한 RAG 데이터와 테스트 데이터를 기반으로 실행됩니다.
아래 표에서 볼 수 있듯이, 다중 선택 평가의 성과는 올바른 옵션을 선택하는 정확도로 측정됩니다.실험 결과에 따르면 MedGraphRAG는 검색 기능이 없는 기준선, 표준 RAG 및 GraphRAG보다 상당히 우수한 성능을 보입니다.검색을 하지 않은 기준선과 비교했을 때, 사실 확인에서 평균 약 101 TP3T, 의학 질의응답에서 81 TP3T의 향상을 달성했습니다. GraphRAG와 비교했을 때, 사실 확인에서 약 81 TP3T, 의학 질의응답에서 51 TP3T의 향상을 달성했습니다. 이러한 향상은 Llama2 13B와 같은 소규모 모델에서 더욱 두드러졌으며, 이는 모델 추론 기능과 외부 지식의 효과적인 통합을 보여줍니다. Llama70B 및 GPT-4와 같은 대규모 모델에 적용했을 때, 11개 데이터세트에서 최첨단 성능을 달성했으며, Med-PaLM 2 및 Med-Gemini와 같이 의학 코퍼스를 기반으로 미세 조정된 모델보다 더 뛰어난 성능을 보이며 의학 LLM 리더보드에서 새로운 최첨단 성능을 확립했습니다.

장형 세대 평가에서이 연구에서는 MedGraphRAG를 Inline Search 및 ATTR-FIRST와 같은 모델과 비교했으며, MultiMedQA 및 DiverseHealth 벤치마크에서 관련성, 정확성, 인용 정확도, 인용 회수 및 이해 가능성이라는 5가지 측면에서 평가했습니다.결과는 아래 표에 나와 있습니다. MedGraphRAG는 모든 지표에서 높은 점수를 받았으며, 특히 인용 정확도, 재현율, 이해도에서 높은 점수를 받았습니다. 이는 근거 기반 답변과 의학 용어에 대한 명확한 설명 덕분입니다.

만성 폐쇄성 폐질환(COPD)과 심부전이라는 복잡한 사례를 다룬 사례 연구에서 GraphRAG의 권고안은 약물이 심부전에 미치는 영향을 무시한 반면, MedGraphRAG는 안전한 약물을 권고할 수 있었습니다. 이는 GraphRAG의 개체와 참고문헌 간의 직접적인 연계 덕분에 GraphRAG 내 정보의 얽힘으로 인해 발생하는 핵심 정보의 누락을 피할 수 있었기 때문입니다.
지식 그래프와 대규모 언어 모델의 통합
의학과 인공지능의 교차점에서 지식 그래프와 대규모 언어 모델을 통합하는 것은 기술적 혁신을 촉진하고, 의료 분야의 복잡한 문제를 해결하기 위한 새로운 아이디어를 제공하는 주요 방향으로 자리 잡고 있습니다.
예를 들어, 케임브리지 대학교와 옥스포드 대학교의 공동 팀이 제안한 KG4Diagnosis 프레임워크는계층적 다중 에이전트 아키텍처를 통해 실제 의료 시스템을 시뮬레이션하고 지식 그래프를 결합하여 진단 추론 기능을 강화하여 362가지 흔한 질병에 대한 자동 진단 및 치료 계획을 수립합니다.푸단대학교 연구팀은 인간 건강과 질병의 프로테옴을 포괄적으로 지도화했습니다. 14.8년의 중간 추적 기간 동안 53,026명의 혈장 프로테옴 데이터를 심층 분석하여, 2,920개의 혈장 단백질과 406개의 기존 질환, 추적 기간 중 새롭게 발견된 660개의 질환, 그리고 986개의 건강 관련 표현형을 포함하는 지도를 구축했습니다.수많은 단백질-질병 및 단백질-표현형 연관성을 밝혀내며,정밀의학 및 신약개발을 위한 중요한 기반을 제공합니다.
구글 딥마인드가 출시한 AMIE 시스템은Gemini 대형 모델의 장기 컨텍스트 추론 기능을 지식 그래프와 통합합니다.임상 지침과 약물 지식 기반을 동적으로 검색하여 여러 진단 사례에 걸쳐 일관된 관리 계획을 수립할 수 있습니다. 예를 들어, 만성 폐쇄성 폐질환(COPD)과 심부전 환자의 경우, 심장 선택적 베타 차단제를 정확하게 권장하여 기존 AI 시스템의 약물 상호작용 위험을 피할 수 있습니다.
아스트라제네카가 구축한 생물의학 지식 그래프는 300만 건의 문서와 내부 연구 데이터를 통합하고, 약물-표적-질병 연관 네트워크를 분석하여 새로운 약물 후보물질의 스크리닝을 가속화합니다.이 지도에는 승인된 약물의 적응증뿐만 아니라 임상 시험에서의 '비적용 사용' 데이터도 포함됩니다.기존 약물의 용도 변경을 위한 의사 결정 지원 제공. 또한, IBM Watson Health의 지식 그래프 플랫폼은 10억 개의 환자 데이터를 근거 기반 가이드라인과 통합하여 유전자 검사, 약물 감수성 예측, 추적 관찰 계획을 포함하는 맞춤형 폐암 치료 계획을 수립하여 환자 생존율 예측 오차를 ±2.3개월로 줄입니다.
이러한 혁신적인 관행은 의료 AI 기술의 반복적인 업그레이드를 촉진할 뿐만 아니라 진단 정확도 향상, 약물 개발 가속화, 임상 의사 결정 최적화에 있어 엄청난 잠재력을 보여줍니다. 기술이 지속적으로 발전함에 따라 지식 그래프와 대규모 언어 모델의 통합은 의료 분야의 정보 장벽을 더욱 허물고 글로벌 의료 발전에 지속적인 추진력을 불어넣을 것입니다.
참고문헌:
1.https://mp.weixin.qq.com/s/WhVbnoso2Jf2PyZQwV93Rw
2.https://mp.weixin.qq.com/s/RWy4taiJCu3kMPfTzOWYSQ
3.https://mp.weixin.qq.com/s/lMLk