Command Palette

Search for a command to run...

Healthcare Agent는 의료 윤리 및 안전 문제를 자동으로 감지하고, 사전 예방적이고 관련성 있는 컨설팅을 제공하며 GPT-4와 같은 폐쇄형 소스 모델을 능가합니다.

Featured Image

최근 몇 년 동안 의료 상담에 대규모 언어 모델(LLM)을 적용하는 것이 점점 더 많은 관심을 받고 있습니다. 후난성 샹탄시 위후구 자오탄 가도 지역 보건 서비스 센터에서 가정의 류얀보는 "스마트 의료 도우미"가 실시간으로 생성하는 약물 권고 및 진료 기록 요약을 기반으로 72세 당뇨병 환자 왕구이화에게 후속 상담을 진행하고 있습니다. 이 "AI + 헬스케어" 적용 시나리오는 위후구 1차 의료 서비스에서 표준 관행으로 자리 잡았습니다. "스마트 의료 도우미"는 전자 의료 기록의 품질을 향상시킬 뿐만 아니라 진단 및 치료 위험 감소에도 도움이 된다고 합니다. 이 플랫폼 도입 이후 지역 의료 기록 표준화율은 96.64%에 도달했으며, 진단 순응도는 96.66%로 증가했습니다.

하지만,일반 LLM을 실제 의료 상황에 적용하는 것은 종종 다양한 과제에 직면합니다.예를 들어, AI 모델은 환자가 자신의 상태와 관련 정보를 단계별로 효과적으로 표현하도록 안내할 수 없을 뿐만 아니라, 의료 윤리와 안전 문제를 관리하는 데 필요한 전략과 안전 장치가 부족하며, 상담 대화를 저장하고 의료 기록을 검색할 수도 없습니다.

이에 대응하여 일부 연구팀은 이러한 문제를 해결하기 위해 의학 LLM을 처음부터 구축하거나 특정 데이터셋을 사용하여 일반 LLM을 미세 조정하는 방법을 시도해 왔습니다. 그러나 이러한 일회성 프로세스는 계산 비용이 많이 들 뿐만 아니라 실제 상황에 필요한 유연성과 적응성이 부족합니다.에이전트는 재교육 없이도 추론하고 작업을 관리 가능한 부분으로 나눌 수 있으므로 복잡한 작업에 더 적합합니다.

이러한 맥락에서,우한대학교와 난양이공대학교 연구팀은 대화, 기억, 처리의 세 가지 요소로 구성된 헬스케어 에이전트를 공동으로 개발했습니다. 이 에이전트는 환자의 의료 목적을 파악하고 의료 윤리 및 안전 문제를 자동으로 감지할 수 있습니다.의료진이 문장 중간에 개입할 수 있도록 하는 동시에, 사용자는 Healthcare Agent를 통해 진료 요약 보고서를 빠르게 얻을 수 있습니다. Healthcare Agent는 의료 진료에서 LLM의 역량을 크게 확장하고 의료 분야 적용에 새로운 패러다임을 제시합니다.

관련 연구 결과는 "헬스케어 에이전트: 의료 상담을 위한 대규모 언어 모델의 힘 이끌어내기"라는 제목으로 Nature Artificial Intelligence에 게재되었습니다.

연구 하이라이트:

* 대화, 기억, 처리라는 세 가지 주요 구성 요소를 제안합니다. 이는 훈련 없이도 LLM의 의료 상담 역량을 향상시키고 멀티태스킹과 안전한 상호작용을 지원할 수 있습니다.

* "논의-수정" 전략을 통해 윤리적, 비상적, 오류적 위험을 탐지하는 안전 및 윤리 보장 메커니즘을 구축합니다.

* 정보 중복을 피하고, 상담 연속성과 개인 맞춤형 케어 효율성을 개선하기 위해 현재 대화 기억과 과거 상담 요약을 결합합니다.

* ChatGPT를 사용하여 가상 환자를 시뮬레이션하고 자동화된 평가 시스템을 개발하여 실제 데이터를 기반으로 모델을 효율적으로 테스트하고 수동 평가 비용을 줄입니다.

서류 주소:
https://go.hyper.ai/09lYX
공식 계정을 팔로우하고 "Healthcare Agent"라고 답글을 남겨 전체 PDF를 받아보세요.

더 많은 AI 프런티어 논문:

https://hyper.ai/papers

데이터 세트에서 고품질 샘플을 선별하고 실제 대화를 기반으로 환자 초상화를 작성합니다.

이 연구에서는 MedD를 사용했습니다.Healthcare Agent를 구축하고 평가하기 위한 ialog 데이터 세트입니다.연구진은 40회 이상의 대화 턴을 포함하는 데이터세트에서 샘플을 선택하고, 이러한 실제 대화를 기반으로 환자 비네트를 구축했습니다. MedDialog 데이터세트는 종양학, 정신과, 이비인후과를 포함한 20개 의료 전문 분야에 걸쳐 의사와 환자의 실제 대화가 대규모로 수집되어 다양하고 포괄적인 실험 환경을 보장합니다. 이 데이터세트는 세 가지 핵심 요소로 구성됩니다. * 환자 상태에 대한 기본 설명 * 여러 차례의 의사와 환자 대화에 대한 완전한 녹취록 * 의료진이 제공한 최종 진단 및 치료 권고.

Healthcare Agent의 핵심 구성 요소 및 모델 아키텍처

Healthcare Agent의 핵심 아키텍처는 대화, 메모리, 처리라는 세 가지 긴밀하게 조정된 구성 요소로 구성됩니다.

* 대화 구성 요소:환자와의 상호작용을 담당합니다. 내부 기능 모듈은 환자의 입력을 기반으로 현재 작업 유형을 자동으로 결정합니다. 환자 정보가 부족한 경우, 계획 하위 모듈은 문의 하위 모듈을 호출하여 환자에게 맞춤형 질문을 통해 주요 증상과 병력을 보완하도록 안내합니다. 정보 수집이 완료되면 시스템은 예비 진단, 질병 원인 설명 또는 치료 권장 사항을 제공합니다.

* 메모리:대화 메모리와 과거 메모리로 구성된 이 시스템은 2단계 구조를 기반으로 현재 대화의 맥락을 완벽하게 기록하여 대화의 연속성과 개인화를 구현합니다. 또한 과거 대화의 주요 정보를 요약 형태로 저장하여 환자의 장기적인 상태에 대한 이해를 높입니다. 이를 통해 시스템의 반복적인 질문 발생을 방지하고 운영 효율성을 유지합니다.

* 처리 중:LLM을 사용하여 체계적인 의료 보고서를 생성하고, 전체 대화를 구성하고, 상태, 진단, 설명 및 후속 제안에 대한 설명을 포함하는 보고서를 작성하여 환자와 의사에게 명확한 진찰 요약 및 방문 요약을 제공하는 등 진찰 후 요약 및 보관을 담당합니다.

안에,환자와 상호 작용하기 위한 핵심 인터페이스인 "대화 구성 요소"에는 세 개의 하위 모듈이 포함되어 있습니다.* 기능 모듈:플래너를 사용하여 상담 의도(진단, 설명 또는 권장 사항 등)를 동적으로 파악하고 "조회 하위 모듈"을 구동하여 환자가 보다 포괄적인 정보를 제공하도록 안내하는 여러 라운드의 사전 질문을 수행합니다.
* 안전 모듈:독립적인 윤리, 비상 및 오류 감지 메커니즘을 통해 생성된 대응은 "논의 및 수정" 전략을 사용하여 검토 및 수정되어 의료 규정 및 안전 기준을 준수하는지 확인합니다.
* 의사 모듈:의료 전문가가 자연어 안내를 통해 직접 개입하거나 대응을 수정할 수 있도록 하여 인간과 기계의 협업을 위한 감독 메커니즘을 구현합니다.

Healthcare Agent 기본 프레임워크 및 흐름도

2단계 평가 프로세스: 자동 평가와 의사 평가의 이중 검증

평가 과정은 자동 평가와 의사 평가, 두 단계로 나뉩니다. 자동 평가는 ChatGPT를 평가자로 사용하는 반면, 의사 평가 단계는 7명의 의사로 구성된 패널이 상담 내용을 검토하고 점수를 매기는 방식으로 진행됩니다. 평가 결과는 다음과 같습니다.Healthcare Agent는 Claude, GPT4, Gemini와 같은 일반 LLM에 비해 자기 인식, 정확성, 유용성, 유해성이 크게 향상되었습니다.동시에 Healthcare Agent는 강력한 일반화 능력도 보여줍니다.

Healthcare Agent와 일반 LLM의 성능 비교

자동 평가 결과

자동화된 평가 실험에서 연구팀은 세 가지 인기 있는 오픈소스 LLM(LLama-3, Mistral, Gemma-2)과 세 가지 폐쇄소스 LLM(GPT-4, Claude-3.5, Gemini-1.5)을 기본 모델로 사용하여 50개의 데이터를 평가했습니다.

컨설팅 품질 측면에서 Mixtral이나 GPT-4와 같은 LLM은 일반적으로 질문을 적극적으로 던지기보다는 직접적인 답변을 제공하는 경향이 있는 반면, Healthcare Agent의 컨설팅은 상대적으로 더 적극적이고 관련성이 높습니다. 응답 품질 측면에서 Healthcare Agent는 오픈 소스 모델과 폐쇄 소스 모델 간의 성능 격차를 크게 줄였습니다. 보안 측면에서 Healthcare Agent는 보안 모듈의 윤리적, 긴급성 및 오류 감지 메커니즘을 통해 응답의 유해성을 효과적으로 줄였습니다.

데이터 평가 결과

의사의 평가 결과

자동 평가 방법의 신뢰성을 검증하기 위해, 본 실험에서는 LLaMA-3와 GPT-4 모델을 사용하여 15개 데이터 세트를 평가하고, 7명의 의사를 평가에 참여시켰습니다. 결과는 다음과 같습니다.의사의 평가와 자동 평가 결과 사이에는 높은 수준의 일관성이 있습니다.대화의 유창성과 유해성이라는 두 가지 지표에서만 약간의 차이가 발견되었으며, 이를 통해 자동화된 평가 방법의 정확성과 대규모 임상 평가에서의 잠재적 적용 가능성이 검증되었습니다.

데이터 평가 결과

의료 기록 생성부터 상담 지원까지, 대형 모델이 임상 시나리오에 빠르게 진입하고 있습니다.

의학 분야에서 LLM이 급속히 발전함에 따라, 연구자와 업계에서는 임상 워크플로우와 의사-환자 소통에 LLM을 적용하는 가치를 끊임없이 탐구하고 있습니다.의사의 서류 작업 부담을 줄이는 것부터 환자 상담 및 진단의 질을 향상시키는 것까지, 최근의 성과는 점차 실험실 수준에서 실제 임상 시나리오로 옮겨가고 있습니다.

이전에는 많은 연구팀이 의료 문서와 환자 상담 분야에 대한 광범위한 탐색을 수행했습니다. Microsoft Nuance가 개발한 인공지능 의료 기록 보조 프로그램인 AI Scribe는 음성 인식 및 대규모 언어 모델 기술을 사용하여외래 진료 또는 병동 회진 중 의사와 환자 간의 대화를 자동으로 필사, 요약 및 표준화된 의료 기록으로 생성하여 단일 방문 기록에 소요되는 시간을 단축합니다. 이러한 성과는 스탠퍼드 대학교 의료센터, 매사추세츠 종합병원, 미시간 대학교 의료센터를 포함한 주요 의료 시스템에 빠르게 도입되었습니다. UC 샌디에이고 보건부는 의사의 답변 초안 작성을 위해 포털 시스템에 대규모 언어 모델을 내장하여, 공감과 표현 품질 모두에서 대조 텍스트보다 우수한 초안을 작성했습니다.

또한, 구글 딥마인드와 구글 리서치 팀은 지능형 의료 상담 및 감별 진단을 촉진하기 위해 AMIE(Articulate Medical Intelligence Explorer)를 공동 개발했습니다. 여러 국가를 아우르는 시뮬레이션 외래 진료소에 대한 무작위 단면 연구에서 연구진은 AMIE의 상담 성과를 일반 의사의 성과와 비교했습니다.연구 결과에 따르면 전문의는 32개 평가 항목 중 28개에서 일반의보다 더 나은 평가를 내렸으며, AMIE의 진단 정확도도 더 높아 복잡한 사례의 감별 진단에서 AMIE의 신뢰성이 검증되었습니다.

앞으로 더 많은 임상 시험이 진행됨에 따라 이러한 기술은 안전성과 신뢰성을 확보하는 동시에 임상 실무에서 중요한 보조 수단이 될 것으로 기대되며, 이를 통해 의료 서비스의 효율성과 질을 동시에 향상시키는 데 기여할 것입니다.

참조 링크:

1.https://med.stanford.edu/news/all-news/2024/03/ambient-listening-notes.html

2.https://today.ucsd.edu/story/introducing-dr-chatbot

3.https://research.google/blog/amie-a-research-ai-system-for-diagnostic-medical-reasoning-and-conversations/

4.https://hnrb.hunantoday.cn/hnrb_epaper/html/2025-09/06/content_1753017.htm?div=-1