HyperAI초신경

의사 교육에 DeepSeek 플러그인을 도입하세요! 상하이 체육 연구소, 상하이 교통 대학, 청화 대학의 협력 연구는 대형 모델이 일차 진료 의사 교육을 위한 "황금 파트너"가 될 수 있음을 증명합니다.

特色图像

세계 건강 환경에서 당뇨병은 "쓰나미 수준"의 맹렬한 속도로 인간의 건강 방어선을 공격하고 있습니다. 지난 30년 동안, 조용하지만 극도로 잔혹한 이 건강 문제로 인해 8억 4천만 명이 질병에 걸렸습니다. 즉, 평균적으로 9명 중 1명이 불행히도 당뇨병 진단을 받는다는 뜻입니다. "랜싯"이 발표한 최신 경고는 경종을 울렸습니다. 2050년까지 전 세계 당뇨병 환자 수가 13억 1천만 명을 넘어설 것으로 추산되는데, 이는 평균 2.3초마다 한 명씩 당뇨병 환자 대열에 합류하게 된다는 것을 의미합니다.

만성 질환인 당뇨병은 무자비한 "건강 수확기"와 같습니다. 매년 10%의 속도로 귀중한 의료 자원을 소모할 뿐만 아니라, 매년 400만 명의 목숨을 무자비하게 앗아갑니다. 실명, 신부전, 절단 등 이로 인한 심각한 합병증으로 인해 수많은 환자의 삶이 끝없는 어둠 속으로 빠졌고, 온 가족이 고통의 심연에 빠졌습니다.

이처럼 심각한 건강 위기 속에서 1차 의료 체계에 드러난 '격차'는 가슴 아픈 일입니다. 예를 들어 제 나라에서는 10만 명당 내분비과 의사가 겨우 0.3명밖에 없습니다. 이는 내분비과 의사가 얼마나 부족한지를 보여줍니다. 더욱 심각한 것은 70%의 1차 진료 의사(PCP)가 당뇨병 합병증 위험 평가를 독립적으로 완료할 능력이 부족하다는 것입니다.기존의 전문화된 교육 모델은 의심할 여지 없이 상황을 악화시키고 있으며 "삼중 딜레마"에 빠져 있습니다.교육 주기는 종종 3~5년이나 되는데, 이는 의학 지식의 급속한 발전을 따라가기에는 너무 깁니다. 동부와 서부 지역 사이에는 훈련 자원에 엄청난 차이가 있으며, 40배 이상의 격차가 있으며, 자원 배분도 심각하게 불균형합니다. 교육 과정이 매우 동질화되어 있어 73% 기초 의사들은 교육을 완료한 후에도 여전히 인지적 맹점이 있습니다..

과학기술의 급속한 발전에 따라 DeepSeek, ChatGPT와 같은 대형 모델이 글로벌 의료 분야에 적극적으로 개입하여 의학교육에 새로운 희망을 가져다주었고, 의학교육의 패러다임을 점차 재구성하고 있습니다. 강력한 지식 저장소와 뛰어난 추론 능력을 갖춘 이러한 대규모 모델은 1차 진료 의사의 지식에서 많은 맹점을 메울 것으로 기대됩니다. 그러나 의학 분야의 이러한 혁명은 순탄치만은 않으며 두 가지 심각한 과제에 직면해 있습니다.한편으로는,대형 모델의 "환각" 문제는 여전히 심각하며, 이는 의료 안전에 큰 위험을 초래합니다.반면에,AI 오진 사례 중 약 30%는 훈련 데이터의 잘못된 라벨링으로 인해 발생했습니다. 또한, 단편화된 임상 실무와 지속적으로 업데이트되는 가이드라인 라이브러리 사이에는 엄청난 격차가 존재하며, 이는 AI의 가치를 완전히 실현하는 데 심각한 제약이 됩니다.

AI가 제공하는 진단 권장 사항이 의사의 임상 경험과 충돌하는 경우,"인간과 기계의 협력적 의사결정"의 새로운 패러다임을 구축하는 방법은 의학적 형평성과 효율성과 관련된 핵심 문제가 되었습니다.  미래의 당뇨병 관리 분야의 AI 혁명이 수억 명의 환자에게 진정한 혜택을 가져다 줄 수 있는 유일한 방법은, 대규모 모델을 일차 진료 의사를 대체하는 "종료자"가 아닌 효과적인 "스마트 외부 두뇌"로 만드는 것입니다. 이는 건강한 중국 전략의 요구 사항과도 매우 일치합니다.

최근 상하이 교통대학의 성빈 교수 팀, 상하이 체육대학의 마오리쥐안 교수 팀, 칭화대학의 황톈인 교수 팀, 상하이 당뇨병 연구소의 지아 웨이핑 교수 팀은 다른 학제적 연구진과 힘을 합쳐 듀크 대학, 미국 존스홉킨스 대학, 호주 멜버른 대학 등 세계적인 명문 대학 및 연구 기관과 심도 있는 협력을 진행하고 있습니다.그들은 권위 있는 중국어와 영어 이중 언어 시험 시스템의 도움을 받아 새로운 평가 체계를 공동으로 구축하고 ChatGPT-3.5, ChatGPT-4.0, Tongyi Qianwen을 포함한 국내외 10개의 주류 대언어 모델(LLM)에 대한 체계적인 테스트를 실시했습니다.

동시에,또한 연구팀은 DeepSeek이 의사 교육 지원에 얼마나 효과적인지도 평가했습니다.  이 일련의 연구를 통해 연구팀은 1차 진료 의사 교육 지원에 있어서 대규모 모델의 실제 효과에 대한 세계 최초의 전향적 실제 증거를 제공했습니다. 이는 의료 분야에서 대규모 모델을 적용하는 데 있어 새로운 연구 방향을 제시했으며, 1차 의료 수준을 개선하기 위한 귀중한 참고 자료를 제공했습니다.

관련 결과는 "당뇨병 훈련을 위한 대규모 언어 모델: 전향적 연구"라는 제목으로 Science Bulletin에 게재되었습니다.

서류 주소:

https://www.sciencedirect.com/science/article/pii/S2095927325000891

오픈소스 프로젝트인 "awesome-ai4s"는 200개 이상의 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s

LLM의 당뇨병 지식을 테스트하세요

연구팀은 국내외 주류 LLM 10개를 선정했다.ChatGPT-3.5, ChatGPT-4.0, Google Bard, LlaMA-7B, LlaMA2-7B, Baidu ERNIE Bot, Tongyi Qianwen, Yilian MedGPT, Huatuo GPT 및 중국어 LlaMA2-7B가 포함됩니다.

시험 내용은 중국어와 영어 두 부분으로 구성되어 있습니다.이는 각각 중국의 당뇨병 1차 진료 국가 시험(NCE-CPDC)과 영국 왕립내과의사회(MRCP(UK))의 내분비 및 당뇨병 전문 자격증 시험(SCE)에 해당합니다. 이 연구에서는 각 LLM이 입력을 기반으로 질문에 답하고 해당 분석 지침을 제공하도록 요구합니다. 이후 연구팀은 모델이 생성한 답변을 공식 표준 답변과 비교하고 교차 검증하여 정확도를 평가했으며, 이를 통해 당뇨병 분야의 의학적 지식 측면에서 각 모델의 성능과 응용 가능성을 종합적으로 측정했습니다.

연구 설계 과정

중국어 시험 - NCE-CPDC:

* NCE-CPDC: 중국 국가 일차당뇨병 관리 자격증 시험은 중국 국가 일차당뇨병 관리 사무소가 주관하는 PCP를 대상으로 설계된 전문 시험입니다.

"국가 1차 당뇨병 예방 및 관리 지침"을 기반으로 당뇨병 정의, 선별 검사, 진단, 의뢰, 생활 습관 개선, 약물 치료 및 급성 및 만성 합병증 관리 등 여러 측면을 다룹니다. NCE-CPDC 인증은 중국에서 널리 인정받고 있으며, 특히 의료 전문가와 당뇨병 관리 종사자들 사이에서 인기가 높습니다.정확도가 60%를 초과하는 결과는 합격으로 간주됩니다.이보다 낮은 점수는 실패로 간주됩니다.

이 테스트에서는ChatGPT-4.0은 다른 모델보다 훨씬 앞서 90.98%라는 높은 정확도를 기록하며 뛰어난 성능을 보였습니다.알리통 이첸웬도 81.20%의 정확도로 강력한 경쟁력을 보여주었는데, 이는 ChatGPT-3.5보다 상당히 우수합니다. 다른 모델 중 일부는 합격 기준을 충족하지 못했지만, 이후의 기술적 개선 및 최적화를 위한 귀중한 데이터와 방향을 제공했습니다.

영어 시험 - SCE:

* SCE: 영국 왕립내과의사협회 전문의 자격증 시험(MRCP(영국)). 이 시험은 매우 전문적이고 도전적이며, 2023년 영국 응시자의 합격률은 28.6%에 불과했습니다.

SCE 시험 문제는 내분비학자와 당뇨병 치료 전문가를 대상으로 설계되었으며 당뇨병 병태생리, 진단, 약물 치료, 급성 및 만성 합병증 관리와 같은 어려운 내용을 다룹니다. ChatGPT-4.0은 62.50%의 정확도로 합격선을 성공적으로 통과했습니다.성과는 다른 주류 LLM(예: Google Bard, LlaMA-7B, LlaMA2-7B 등, 모두 자격 기준을 충족하지 못함)보다 훨씬 뛰어납니다. 이번 성과는 ChatGPT-4.0이 매우 어려운 전문적 콘텐츠를 처리하는 데 있어서 잠재력이 있음을 입증할 뿐만 아니라, 이후 의학 교육 분야에서 LLM을 적용하기 위한 견고한 기반을 제공합니다.

LLM은 일차 진료 의사 교육을 지원합니다.

연구팀은 간단한 퀴즈 테스트를 마친 후 거기서 멈추지 않았습니다.대신, 우리는 실제 훈련 시나리오에서 대규모 언어 모델(LLM)의 적용 효과를 더욱 탐구합니다.  이번에 연구팀은 7명의 일차진료의(PCP)를 연구 대상으로 신중하게 선정하고 ChatGPT-4.0의 도움을 받거나 받지 않고 중국의 일차당뇨병 관리 자격증 국가고시(NCE-CPDC)에 응시하도록 했습니다.

테스트 결과는 놀라웠습니다. 첫 번째 테스트에서 ChatGPT-4.0은 84.82%의 정확도로 다른 대형 모델을 앞지르며 테스트에 참여한 모든 의사를 크게 뒤처지게 했습니다. ChatGPT-4.0의 도움을 받았을 때 대부분 의사의 성과가 더욱 좋아졌습니다.평균 정확도는 74.72%에서 75.81%로 꾸준히 증가했습니다.

일부 의사들은 테스트 중에 모델에서 가능한 오해의 소지가 있는 설명을 식별하는 데 어려움을 겪었고 이로 인해 성과가 저하되었지만 전체 데이터는 다음과 같습니다. 보조 도구로서 LLM은 의사들이 당뇨병 관리 지식에 대한 숙달과 적용을 개선하는 데 의심할 여지 없이 효과적으로 도움이 될 수 있습니다.  주목할 점은 다음과 같습니다.테스트에 참여한 PCP는 거의 모두 이 새로운 교육 모델을 칭찬했습니다.그들은 LLM이 내부적 일관성, 전문적인 조언, 실용성 측면에서 탁월한 성과를 보이며, 기존 교육 방법에 새로운 활력을 불어넣고 놀라운 변화를 가져온다고 믿습니다.

특히 이 연구는 2023년 초에 진행되었다는 점이 주목할 만합니다. 최근 몇 년 동안 국내 대규모 언어 모델이 봄비 뒤 버섯처럼 솟아나 의학 분야에서 큰 진전을 이루었습니다. 그 중에서도 현재 많은 기대를 모으고 있는 국내 범용 대규모 언어 모델인 DeepSeek이 특히 좋은 성과를 보였습니다.연구팀은 NCE-CPDC 시험 문제에 대한 DeepSeek의 답변 정확도에 대해 엄격한 테스트를 실시했고, 그 결과는 고무적이었습니다. DeepSeek의 답변 정확도는 최대 91.73%로 ChatGPT-4.0의 90.98%를 약간 뛰어넘었습니다.

이러한 성과를 바탕으로 볼 때, 앞으로 국내 범용 대규모 언어 모델과 수직 분야에 초점을 맞춘 대규모 언어 모델 모두 엄청난 잠재력을 가질 것이라고 믿을 만한 충분한 근거가 있습니다.그들은 당뇨병 등 만성 질환의 예방과 관리에 핵심적인 역할을 수행하고, 만성 질환 진단 및 치료의 디지털 전환을 효과적으로 촉진하며, 강력한 과학기술력을 통해 국민 건강을 보호할 것입니다.

PCP 교육 및 당뇨병 환자 치료에 있어 LLM의 미래 전망

의료 교육 분야의 LLM 개발

당뇨병 관리부터 정신과 교육까지

의학 교육에서 LLM을 활용하는 것은 당뇨병 치료 분야에만 국한되지 않습니다.  최근 몇 년 동안 국내외 여러 연구팀이 LLM과 딥러닝(DL) 기술을 결합하여 다양한 의료 전문 분야에 대한 지능형 교육 플랫폼을 구축하려고 시도했습니다.

상하이 교통대학 X-LANCE 연구실의 우멍웨이 교수 팀이 구축한 AMC(에이전트 멘탈 클리닉)를 예로 들면, 이 시스템은 자동화된 대화 에이전트를 통해 심리적 진단과 치료 시나리오를 시뮬레이션합니다. 우울증의 초기 선별을 도울 뿐만 아니라, 연수 정신과 의사를 교육하고, 인턴십을 위해 공식적으로 학과에 들어가기 전에 몇 가지 지침과 도움을 제공합니다. 이 모델은 정신과 의사들이 정식 임상 작업에 들어가기 전에 유용한 연습과 지침을 제공하고, 전문적인 교육에 드는 시간 비용을 크게 단축하며, 환자에게 더 높은 품질의 초기 진단 조언을 제공합니다.


자세한 보고서를 보려면 클릭하세요: Agent Psychological Clinic이 온라인 상태입니다! 상하이 교통대학교 연구팀은 1.3K건의 우울증 상담 대화를 기반으로 우울증을 진단할 수 있는 대규모 모델 대화 에이전트를 구축했습니다.

AMC 시스템 운영 프로세스


DeepDR-LLM: 시각과 언어를 통합한 당뇨병 진단 및 치료를 위한 새로운 모델

현재 대규모 언어 모델(LLM)은 의료 정보 처리 및 지식 생성 분야에서 놀라운 성과를 거두며 강력한 역량을 입증했습니다. 이를 통해 방대한 양의 의료 정보를 빠르게 통합하고, 의학적 의사결정을 위한 풍부한 데이터 지원을 제공하며, 환자 증상과 병력을 기반으로 예비 진단 권장 사항을 생성하여 의료 효율성을 어느 정도 향상시킬 수 있습니다.

하지만 그래도,LLM은 여전히 의사만이 지닌 혁신 정신, 비판적 사고, 임상적 의사결정 능력을 완전히 대체할 수는 없습니다.  의사가 복잡한 질환에 직면할 때, 환자의 개별적인 차이에 대한 예리한 통찰력과 경험과 전문성에 기반한 종합적인 판단은 의료 과정에서 필수적인 요소입니다. 이러한 점을 고려하여 많은 연구자들이 LLM과 딥러닝(DL) 기술의 통합 경로를 적극적으로 탐색하여 임상 의사결정의 정확도를 더욱 높이고자 노력하고 있습니다.

이 최첨단 분야를 탐구하는 데 있어서 상하이 교통대학의 성빈 교수팀이 이룬 성과는 특히 뛰어납니다. 2024년 7월이 팀이 세계적인 연구기관과 협력하여 개발한 DeepDR-LLM 모델은 국제적으로 유명한 학술지인 Nature Medicine에 게재되었습니다.이 결과가 발표되자 국제 의학계에 큰 반향을 일으켰고, 의학계의 많은 거물들로부터 극찬을 받았습니다. 정밀 의학의 선구자인 에릭 토폴 교수, 울프 의학상 수상자 다니엘 J. 드러커 교수, 세계보건기구 명예사무총장이자 청화대학교 반케 공중보건대학원 초대 학장인 마가렛 찬 교수는 모두 이를 전폭적으로 인정했습니다.

DeepDR-LLM 시스템 아키텍처

전통적인 당뇨병 관리 교육을 돌이켜보면, 의사들은 주로 방대한 양의 서면 자료와 장기간 축적된 임상 경험에 의존하여 전문적 역량을 향상시켰습니다. 이 방법은 효과적이지만 효율성이 낮고 데이터 적시성에 제한이 있다는 문제가 있습니다.

DeepDR-LLM은 당뇨병 진단 및 치료를 위한 세계 최초의 통합 비전-대규모 언어 모델 시스템으로서, 당뇨병 진단 및 치료 분야의 혁신적인 모델입니다.LLM의 강력한 지식 처리 능력과 DL의 정밀한 이미지 분석 기술을 능숙하게 결합하여 기능 면에서 큰 혁신을 이루었습니다. 이 시스템은 당뇨병 진단 및 치료와 관련된 다양한 전문적인 질문에 빠르고 정확하게 답할 수 있을 뿐만 아니라, 안저 이미지 분석을 통해 의사가 당뇨병성 망막증을 진단하는 데 도움을 주어 의사가 질병의 초기 단계에서 잠재적인 질병 위험을 감지하는 데 도움이 됩니다.

언급할 가치가 있는 것은 다음과 같습니다.DeepDR-LLM 시스템은 또한 강력한 확장성을 가지고 있으며 DeepSeek과 원활하게 연결될 수 있습니다.  DeepSeek의 추론 기능을 MoE 기술과 통합하면 성능을 더욱 향상시킬 수 있습니다. DeepDR-LLM 시스템은 여러 차례의 기술적 반복과 혁신을 거쳐 당뇨병 치료 교육의 질을 크게 개선하여 의사들이 최첨단 지식과 진단 기술을 보다 효율적으로 습득할 수 있게 했을 뿐만 아니라, 임상 실무에 대한 실용적이고 효율적인 기술 지원을 제공하여 당뇨병 환자에게 보다 정확하고 시기적절한 진단과 치료에 대한 희망을 가져다주었습니다.

자세한 보고서를 보려면 클릭하세요: 세계 최초! 청화대/상하이교통대 등 공동 연구진, 당뇨병 진단 및 치료를 위한 시각적-대규모 언어 모델 구축, Nature 게재

당뇨병 예방 및 치료는 세계 보건 분야에서 중요한 문제이며, 1차 진료 의사의 교육은 전반적인 의료 수준을 개선하는 데 중요한 연결 고리입니다. 국민 건강을 보호하는 "최전선 경비대"로서, 기초 의사의 교육 품질은 전반적인 의료 수준을 향상시키는 핵심 고리이며 의료 서비스의 폭과 깊이에 직접적으로 관련됩니다.

이러한 맥락에서, Sheng Bin 교수의 팀은 여러 분야의 전문가 팀과의 긴밀한 협력과 통합 혁신을 통해 당뇨병 관리 교육 분야에서 대규모 언어 모델(LLM)을 적용하는 데 주력하고 심층적인 탐구를 수행했습니다. 이 탐험은 매우 중요한 의미를 가지고 있습니다. 이는 첨단 인공지능 기술의 도움으로 의료 교육을 최적화하기 위한 새로운 아이디어를 제시할 뿐만 아니라, 미래에 의학 인공지능을 여러 학문과 분야 전반에 걸쳐 광범위하게 적용할 수 있는 튼튼한 기반을 마련합니다.


오늘날 "AI + 의사"의 결합은 엄청난 힘을 보여주고 있으며, 의료 자원의 분배 패턴을 점차 바꾸고 있습니다.  이 황금 조합은 두 가지 장점을 교묘하게 결합했습니다. 의사의 인간적 치료와 풍부한 임상 경험이 그대로 유지되어 환자에게 따뜻함과 신뢰를 줍니다. 동시에 AI는 의사에게 개인의 인지적 한계를 뛰어넘는 의사결정 지원을 제공하여 진단과 치료를 더욱 정확하고 효율적으로 만들어줍니다. AI 시스템이 지칠 줄 모르는 의료 보조원과 같아 실시간으로 최신 의학 문헌을 분석하고, 자동으로 감별 진단 지도를 생성하고, 동시에 전 세계 진단 및 치료에 대한 합의를 업데이트할 수 있다면, 기초 의사들에게 시간과 공간의 제약을 극복할 수 있는 '초능력'이 부여되는 듯합니다. 외딴 지역에 살고 있더라도 최첨단 의학 지식과 진단 아이디어를 얻을 수 있습니다.

이 의학 혁명의 영향은 광범위하며, 그 가치는 당뇨병 예방 및 치료 수준을 개선하는 것보다 훨씬 더 큽니다.또한 글로벌 의료 형평성을 위한 독특한 중국 솔루션을 제공합니다.DeepSeek, Deep DR-LLM 등 AI 시스템의 도움으로 농촌 의사도 학자들과 동등한 수준에서 진단과 치료에 대한 조언을 얻을 수 있다면 도시와 농촌의 의료 수준 격차가 크게 줄어들 것입니다. 도시 전문가도 지루하고 반복적인 작업에서 벗어나 복잡한 사례 연구에 더 많은 에너지를 쏟을 수 있으며, 이는 의학의 지속적인 발전을 촉진합니다. 이러한 기술의 도움으로 "심각한 질병을 치료하기 위해 나라를 떠날 필요가 없다"는 말은 더 이상 달성 불가능한 구호가 아니라 점차 현실이 되어가고 있으며, 인류 전체를 위한 건강한 공동체를 구축하는 강력한 지적 추진력을 불어넣고 있습니다.

앞으로 나아가며

글로벌 의료 환경이 빠르게 변화함에 따라, 기술적 역량 강화는 의료 서비스의 질을 개선하는 중요한 "도구"가 되었습니다. 최첨단 기술과 의료 실무의 긴밀한 통합은 1차 의료 교육의 오랜 단점을 효과적으로 메울 수 있을 뿐만 아니라, 의료 인공지능의 응용을 위한 더 폭넓은 개발 공간을 열어 새로운 차원으로 도약하는 데 도움이 될 수 있습니다.

LLM 기술의 지속적인 최적화와 임상 응용의 지속적인 확대를 통해 더욱 흥미진진한 혁신적 결과가 도출되어 대다수 환자에게 실질적인 건강상의 이점을 제공하고, 글로벌 의료 시스템의 활발한 발전에 지속적인 지혜와 활력을 불어넣으며, 과학기술의 진흥 하에 의료 산업이 더욱 눈부시게 꽃피울 것으로 기대됩니다.