HyperAI초신경

쓰촨대 서중국병원 팀은 의사 상담을 시뮬레이션하여 질병 진단을 돕기 위한 다중 에이전트 대화 프레임워크를 개발했습니다.

特色图像

희귀 질환의 유병률은 낮고, 관련 전문 지식도 부족합니다. 게다가, 개별 증상은 복잡하고 변화하기 때문에 잘못된 진단과 늦은 진단이 자주 발생합니다. 최근 몇 년 동안 GPT-4와 같은 대규모 언어 모델(LLM)은 의학적 질문에 대한 답변과 흔한 질병 진단에서 좋은 성과를 거두었지만 희귀 질병과 같은 복잡한 임상 과제에서는 여전히 어려움에 직면해 있습니다.의학 분야에서 LLM의 실제 적용 역량을 향상시키기 위해 일부 연구자들은 다중 에이전트 시스템(MAS)의 적용을 모색하기 시작했습니다.

지능형 에이전트는 특정 목표를 달성하기 위해 입력을 받고 특정 작업을 수행할 수 있는 시스템입니다. 예를 들어, 우리가 ChatGPT와 건강 상태에 관해 소통할 때, 실제로는 한 명의 상담원과 대화하는 것입니다.이와 대조적으로 다중 에이전트 시스템은 다중 에이전트 대화(MAC)를 통해 보다 역동적이고 상호 작용적인 진단을 달성합니다. 이 모델은 임상 실무에서의 다학제 팀(MDT) 논의 메커니즘을 시뮬레이션하여 여러 의료진이 동일한 사례에 대해 논의하고 분석하며, 합의에 도달한 후 진단 결과를 출력할 수 있도록 합니다.

최근, 쓰촨대학교 서중국병원, 서중국생물의학빅데이터센터, 저장대학교 의학대학, 베이징우전대학 등의 팀이 참여했습니다.GPT-3.5와 GPT-4를 기반으로 다중 에이전트 대화(MAC) 프레임워크가 개발되었습니다.이 프레임워크는 환자 상태 분석에 공동으로 참여하는 관리자 에이전트, 감독자 에이전트 및 여러 의사 에이전트로 구성됩니다. MAC의 가장 좋은 구성은 GPT-4를 기본 모델로 사용하고 4개의 Doctor Agent와 1개의 Supervisor Agent로 구성하는 것입니다.

302개의 희귀 질병에 대한 임상 추론 및 의학 지식 생성에서 GPT-3.5, GPT-4 및 MAC의 성능 평가가 가능합니다.MAC은 초기 및 후속 단계 모두에서 단일 에이전트 모델보다 우수한 성과를 보였습니다.또한 MAC의 진단 능력은 사고의 사슬(CoT) 프롬프트, 자기 개선, 자기 일관성과 같은 방법을 넘어섭니다.더욱 풍부한 진단 내용을 출력할 수 있습니다.예를 들어, GPT-3.5와 GPT-4는 임상적 표현을 바탕으로 심낭염과 간질을 식별할 수 있지만, MAC은 관절 대화를 보다 심층적으로 분석하여 특정 사례의 심낭염이 바르데-비들 증후군으로 인해 발생했다고 판단할 수 있습니다.

결론적으로 MAC은 LLM의 진단 능력을 크게 향상시키고, 이론적 지식과 임상 실무 간의 격차를 메우며, 의사를 위한 중요한 보조 도구가 될 것으로 기대됩니다."다중 에이전트 대화형 대규모 언어 모델을 통한 진단 역량 강화"라는 제목의 이 연구는 Nature 저널인 npj Digital Medicine에 게재되었습니다.

서류 주소:

https://www.nature.com/articles/s41746-025-01550-0#Tab6

오픈소스 프로젝트인 "awesome-ai4s"는 200개 이상의 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 302개의 희귀 질환 스크리닝

이 연구에서는 Orphanet 데이터베이스에서 302개의 희귀 질병을 연구 대상으로 선별했습니다. Orphanet 데이터베이스는 유럽 위원회가 공동으로 자금을 지원하여 구축한 포괄적인 희귀 질환 데이터베이스로, 33개 유형의 7,000개 이상의 질병을 다루고 있습니다.

302건의 희귀 질환 사례 데이터 세트를 다운로드하세요.
https://go.hyper.ai/EETet

연구팀은 목표 질환을 식별한 후, 2022년 1월 이후에 발표된 임상 사례 보고서를 Medline 데이터베이스에서 검색했습니다. 이러한 사례 보고서에서 구조화된 데이터를 추출하여 환자 인구 통계, 임상 증상, 병력, 신체 검사 결과, 다양한 보조 검사 결과(유전자 검사, 병리학적 생검, 방사선 검사 포함)에 대한 자세한 정보를 수집하고 최종 진단 정보를 기록했습니다.

연구팀은 임상 환경에서 대규모 언어 모델(LLM)의 적용 가치를 종합적으로 평가하기 위해 2단계 임상 상담 시뮬레이션 실험을 설계했습니다. 각 사례는 1차 상담과 후속 상담 환경에서 테스트되었습니다.

* 첫 번째 단계는 초기 상담 시나리오(초기 진단)를 시뮬레이션합니다.주요 목적은 처음 내원하여 임상 정보가 제한적인 환자를 대상으로 LLM의 성과를 조사하는 것입니다. LLM의 임무는 가장 가능성 있는 진단, 여러 가지 가능한 진단, 그리고 추가 진단에 도달하는 것입니다.

* 두 번째 단계에서는 후속 상담 시나리오(재검진)를 시뮬레이션합니다.완전한 환자 정보(다양한 검사 결과 포함)를 얻은 후 LLM의 진단 능력을 평가합니다. LLM의 임무는 가장 가능성 있는 진단 1개와 여러 가지 가능한 진단을 도출하는 것입니다.

이 단계적 연구 설계는 불완전한 정보 조건에서 LLM의 초기 판단 능력을 시험할 수 있을 뿐만 아니라, 임상 데이터를 완전히 숙지한 후 의학적 추론과 최종 진단 정확도를 체계적으로 평가하여 임상 의사결정 지원 분야에서 LLM의 실제적 응용 잠재력을 종합적으로 반영합니다.

임상 사례 진단 및 치료a: 1차 진료는 1차 치료 중 환자로부터 얻은 초기 정보를 나타냅니다.b: 후속 진료는 관련 진단 테스트가 수행된 후 환자의 완전한 정보를 나타냅니다.

GPT-4 기반 MAC 프레임워크와 4개의 Doctor Agent가 가장 좋은 성능을 보였습니다.

연구팀은 Autogen이 제공한 구조를 활용해 GPT-3.5-turbo와 GPT-4를 기반으로 두 개의 다중 에이전트 대화 프레임워크(MAC)를 개발해 의사 상담을 시뮬레이션했습니다. 아래 그림과 같이,관리 담당자는 환자 정보를 제공하고, 감독 담당자는 공동 대화를 시작하고 감독하며, 세 명의 의사 담당자는 환자의 상태에 대해 함께 논의합니다.대화는 에이전트가 합의에 도달하거나 사전 설정된 최대 대화 라운드 수(본 연구에서는 13라운드로 설정)에 도달할 때까지 계속되고, 최종 진단 결과가 출력됩니다.

다중 에이전트 대화 프레임워크(MAC) 프레임워크

감독 에이전트는 품질 관리 및 프로세스 최적화 역할을 합니다.그 책임에는 다음이 포함됩니다: (1) 의사 대리인이 내린 권장 사항 및 결정에 대한 감독 및 평가 (2) 놓칠 수 있는 핵심 사항을 파악하기 위해 진단 계획 및 제안된 검사 항목을 검토합니다. (3) 진단 계획 개선을 촉진하기 위해 의사 대리인 간의 토론을 조정합니다. (4) 의사대리인들 간의 최종진단 및 검사계획에 대한 합의를 이루도록 추진한다. (5) 합의에 도달한 후 적절한 시기에 대화 과정을 종료합니다.

의사 대리인의 책임은 다음과 같습니다.(1) 전문적 의학 지식에 기초한 진단 추론 및 임상적 조언을 제공합니다. (2) 다른 대리인의 의견을 체계적으로 평가하고 논평하며 과학적이고 합리적인 주장과 증거를 제시합니다. (3) 다른 에이전트의 피드백을 통합하고 최적화하여 진단 출력을 지속적으로 개선합니다.

연구진은 Medline 데이터베이스의 실제 임상 사례 보고서를 사용하여 302개의 희귀 질환에 대한 GPT-3.5, GPT-4 및 MAC의 지식과 진단 역량을 평가했습니다. 또한, 다양한 설정이 MAC 성능에 미치는 영향도 연구합니다.

예를 들어, 연구팀은 MAC 프레임워크가 GPT-4와 GPT-3.5를 기본 모델로 사용했을 때의 성능 차이를 비교했습니다.결과에 따르면, GPT-3.5 또는 GPT-4를 기본 모델로 사용하는 MAC은 각각의 독립적인 버전보다 성능이 상당히 우수한 것으로 나타났습니다. 즉, MAC의 진단 능력은 단일제제 모델에 비해 크게 향상됩니다.또한 MAC의 기본 모델로 사용할 경우 GPT-4가 GPT-3.5보다 성능이 더 뛰어난 것으로 나타났으며, 이는 더 강력한 기본 모델이 전반적인 성능을 향상시킬 수 있음을 의미합니다.

MAC의 기본모델과 진료 횟수의 영향

또한,연구자들은 또한 다중 에이전트 프레임워크의 성능에 닥터 에이전트의 수가 미치는 영향을 연구했습니다.GPT-4 모델을 기반으로 한 실험 결과에 따르면, 가장 가능성 있는 진단 정확도 측면에서 4가지 에이전트를 사용할 때 34.11%의 최고치에 도달했지만, 5가지 에이전트를 사용할 때는 31.79%로 약간 떨어졌습니다. 가능한 진단의 정확도에서도 유사한 패턴이 관찰되었으며, 에이전트 2, 3, 4, 5의 정확도는 각각 51.99%, 53.31%, 53.86%, 50.99%였습니다. GPT-3.5 모델을 기반으로 한 실험에서도 4개의 Doctor Agent가 가장 좋은 성능을 보였습니다. 하지만 전체적으로 보면 3명의 에이전트의 성과는 4명의 에이전트의 성과와 크게 다르지 않습니다.

또한, 4명의 의사 대리인이 참여하는 시뮬레이션 초기 상담 시나리오에서,GPT-4 기반 MAC 프레임워크는 여러 핵심 지표에서 더 나은 성과를 달성했습니다. 가장 가능성 있는 진단의 정확도는 34.11%(GPT-3.5는 24.28%)에 도달했고, 가능한 진단의 정확도는 48.12%(GPT-3.5는 36.64%)에 도달했으며, 추가 진단 검사의 유용성은 78.26%(GPT-3.5는 77.37%)에 도달했습니다. 후속 진료의 진단 성과 측면에서도 4명의 의사 대리인이 참여한 GPT-4 기반 MAC 프레임워크가 가장 좋은 성과를 보였습니다.

1차 진료의 정확성

연구원들은 또한 Supervisor Agent를 제거하면 MAC의 전반적인 성능에 미치는 잠재적 영향을 평가했습니다. 결과는 감독 에이전트가 제거되면 4명의 의사 에이전트로 시뮬레이션된 초기 컨설팅 시나리오에서GPT-4 기반 MAC 프레임워크의 가장 가능성 있는 진단 정확도, 가능한 진단 정확도, 추가 진단 검사의 유용성 측면에서의 데이터는 각각 32.67%, 45.47%, 78.04%로, 모두 제거하지 않은 경우보다 낮았습니다.후속 협의 시나리오에서, Supervisor Agent를 제거한 MAC 프레임워크는 제거하지 않은 경우보다 가장 가능성 있는 진단 정확도와 잠재적 진단 정확도가 낮았습니다.이는 Supervisor Agent가 프레임워크의 효율성을 향상시킨다는 것을 보여줍니다.

후속 상담의 정확성

실험적 결론: MAC은 질병의 근본 원인을 직접 식별할 수 있으며 더 강력한 진단 능력을 가지고 있습니다.

연구팀은 질병 정의, 역학, 임상적 특성, 병인, 진단 방법, 감별 진단, 산전 진단, 유전 상담, 치료 관리 및 예후를 포함하여 희귀 질환에 대한 지식을 생성하는 데 있어 GPT-3.5, GPT-4 및 MAC 프레임워크의 성능을 평가했습니다. 결과는 이러한 모델이 모든 평가 차원에서 좋은 성과를 보이며, 아래 그림에서 볼 수 있듯이 각 지표에서 4점을 넘는 점수를 받았다는 것을 보여줍니다. 또한,그들은 높은 수준의 콘텐츠 정확성(부적절하거나 잘못된 콘텐츠), 정보 완전성(누락), 안전성(가능한 피해의 가능성과 규모), 객관성(편견)을 보여주었습니다.

질병별 지식 생성 비교

연구진은 구체적인 사례의 질병 진단에서 아래 그림과 같이 GPT-3.5와 GPT-4가 임상적 증상을 통해 심낭염과 간질을 식별하는 등 명확한 증상을 기반으로 질병을 진단할 수 있었지만, 질병의 근본 원인을 탐구하는 데는 부족했다고 밝혔습니다.이와 대조적으로 MAC 프레임워크는 공동 대화를 통해 더욱 심층적인 분석을 제공하며, 이를 통해 특정 사례에서 심낭염이 바르데-비들 증후군으로 인해 발생했는지 확인할 수 있습니다.

대표적인 예

연구자들은 MAC을 입출력(I/O) 신호, 사고의 사슬 신호(CoT), 자체 최적화, 자체 일관성 방법과 비교했습니다. 아래 그림과 같이,초기 및 후속 진료에서 MAC은 가장 가능성 있는 진단, 가능한 진단, 추가 진단 검사의 효과 측면에서 가장 좋은 성과를 보였습니다.

또한 MAC은 더 많은 토큰을 출력합니다. 출력이 증가하면 다양한 추론 경로를 탐색하는 데 도움이 될 뿐만 아니라 이전 출력을 반성하고 수정할 수 있어 분석의 심도가 높아지고 간과된 질병의 근본 원인을 식별하는 능력이 향상될 수 있습니다. 그러나 연구에 따르면LLM 호출 수를 늘려 더 많은 토큰을 생성하면 MAC 성능을 향상시킬 수 있지만, 이러한 개선의 규모는 작업 유형과 사용된 세분화 방법에 따라 제한됩니다.

각 방법의 성능에 대한 출력 토큰의 영향

요약하자면, 본 연구는 질병 진단을 위한 다중 에이전트 대화 프레임워크(MAC)를 성공적으로 개발했으며, 이를 통해 귀중한 진단적 제안을 제공하고 임상 상담의 다양한 단계에서 추가 진단을 권장할 수 있으며, 모든 유형의 희귀 질환에 적용할 수 있습니다. 또한, Chain of Thought(CoT), Self-optimization, Self-consistency 등 기존 방식과 비교했을 때,MAC은 진단 정확도가 더 높을 뿐만 아니라, 더 풍부하고 포괄적인 진단 콘텐츠를 생성합니다.이 프레임워크는 대규모 언어 모델의 임상 진단 능력을 크게 향상시킵니다.

다중 에이전트 시스템은 의료 분야에 적용할 수 있는 큰 잠재력을 가지고 있습니다.

최근 몇 년 동안 다중 에이전트 시스템은 의학적 의사결정 및 진단 분야에서 유망한 진전을 보여주었습니다. 여러 가지 중요한 프레임워크가 등장하여 대규모 언어 모델을 활용하여 임상 작업을 수행하기 위한 다양한 전략을 채택했습니다. 예를 들어, 상하이 교통대학교는 의학 분야를 위한 학제간 협업 프레임워크인 MedAgents를 제안했습니다. 이 프레임워크를 사용하면 LLM 기반 에이전트가 롤플레잉 환경에서 여러 라운드의 협업 토론을 수행할 수 있으며, 이를 통해 샘플이 없는 의학적 질문에 대한 답변에서 LLM의 성과를 크게 향상시킬 수 있습니다. 해당 연구는 "MedAgents: Zero-shot Medical Reasoning을 위한 협력자로서의 대규모 언어 모델"이라는 제목으로 arXiv에 게재되었습니다.
서류 주소:

https://arxiv.org/abs/2311.10537

의료 질문과 답변에 중점을 둔 MedAgents 및 기타 플랫폼과 달리MAC 프레임워크는 진단 작업에 초점을 맞춰 여러 에이전트가 동일한 임상적 맥락에서 분석하고, 상호 작용적으로 논의하고, 개방형 진단 제안을 제공하도록 합니다.지능형 에이전트의 아키텍처 설계 측면에서 MAC은 여러 개의 Doctor Agent와 Supervisor Agent를 포함하는 반면, 다른 프레임워크는 질문과 답변에 대해 별도의 Agent를 만드는 등 다양한 설정을 채택합니다. 각 프레임워크는 합의에 도달하는 방식에서도 차이가 있습니다. 예를 들어, MedAgents는 모든 전문가가 합의에 도달할 때까지 반복적인 수정을 통해 답변을 지속적으로 개선하는 반면, Doctor Agents가 충분한 합의에 도달하면 Supervisor Agent가 MAC을 결정합니다.

이러한 다중 에이전트 시스템은 구성과 목표에 있어 고유한 특성을 가지고 있지만, 의료 분야에 적용할 수 있는 잠재력이 매우 크며, 실제 임상 환경에서의 역할을 충분히 탐구하고 최적화하기 위해서는 앞으로 추가 연구가 필요합니다.

위에 언급된 다중 에이전트 대화 프레임워크 연구팀은 생성적 인공지능과 임상 의학의 교차점에서 최첨단 탐색에 집중하고 있습니다.풍부한 임상 데이터 리소스와 첨단 컴퓨팅 하드웨어 시설을 보유하고 있으며, 연구 결과는 저명한 국제 학술지에 게재되었습니다.

이 팀은 인공지능 기술의 실용적 적용과 임상 의료 진단 및 치료 모델과 생태계를 근본적으로 변화시키는 데 전념하고 있습니다. 우리는 학술기관과 기업의 프로젝트 협력을 진심으로 초대합니다. 우리는 이 분야에 관심이 있는 뛰어난 대학원생의 지원을 환영합니다. 동시에, 우리는 팀에 합류할 열정적인 과학 연구 조수를 모집하고 있습니다. 관심 있는 분은 geteff@wchscun.cn으로 문의하시기 바랍니다.