HyperAI초신경

청화창궁병원의 리동은 전체 심장 모델에서 LLM 기반 질병 네트워크 분석까지 데이터 관점에서 의료 빅 모델의 발전 추세를 분석합니다.

特色图像

인공지능 기술이 발전함에 따라, AI는 의료 분야에도 큰 변화를 가져왔습니다. 다중 소스 데이터와 지능형 알고리즘을 통합함으로써 의료 산업의 효율성과 정확한 진단을 향상시키는 새로운 솔루션을 제공했습니다. 대규모 모델의 "연료"이자 의료 의사 결정의 핵심 요소인 의료 데이터는 매우 중요한 역할을 합니다.특히 중국의 의료 시스템의 디지털 전환이 가속화되는 상황에서 데이터 관점에서 의료 모델을 분석하는 것은 혁신을 향한 불가피한 길입니다.

최근 2025년 베이징 지위안 학술대회에서 청화창궁병원 의료데이터과학센터 소장인 리동 교수가 "AI+과학·공학·의학" 포럼에서 연설했습니다.주제는 "스마트 헬스케어 시대에 의료 데이터를 활용해 혁신적인 연구를 수행하는 방법"입니다.청화창궁기념병원의 실무경험과 결합하여데이터 관점에서 볼 때, 빅 모델의 구현 모델, 기술적 한계, 리소스 재구성, 애플리케이션 탐색 등 여러 차원이 공유되었습니다.

리동 교수님의 연설

HyperAI는 리동 교수의 심도 있는 발표 내용을 원래 의도를 훼손하지 않고 편집하고 요약했습니다. 다음은 발표 내용 전문입니다.

의료 시나리오에서 대형 모델의 적용 및 과제

"로컬 배포 + 맞춤형 개발 + 오프라인 사용" 모드 적용

DeepSeek은 최근 몇 년 동안 큰 인기를 얻고 있는 대형 모델입니다. 의료 환경에서는 세 가지 주요 사용 모드가 있습니다. 모바일 기기에서의 가벼운 사용 모드, 클라우드 접속 모드, 그리고 "로컬 배포 + 맞춤형 개발 + 오프라인 사용"입니다.

이 세 가지 접근 방법 중,"현지 배포 + 맞춤형 개발 + 오프라인 활용"이 실무적으로 최적의 솔루션이 되었습니다."데이터는 병원 외부로 유출될 수 없다"는 정책 제약으로 인해 클라우드 모델은 실제 데이터를 사용하여 모델을 학습시킬 수 없어 "정적 템플릿"이 됩니다. 또한, 가벼운 모바일 애플리케이션은 간단한 진료만 처리할 수 있어 핵심적인 의료 요구를 충족할 수 없습니다. "로컬 배포 + 맞춤형 개발 + 오프라인 사용"을 통해 데이터 유출 및 오염 위험(예: 외부 환각 데이터 혼합)을 피할 수 있지만, 병원 측에서 높은 컴퓨팅 비용을 독립적으로 부담해야 한다는 것을 의미합니다.

의료 분야에서 대형 모델의 과제

대규모 모델을 병원에 구현하는 과정에는 많은 어려움이 있습니다.예를 들어, 알고리즘 결함, 환각 문제, 컴퓨팅 파워 함정, AI 공정성 등이 있습니다.

* 알고리즘 결함:DeepSeek이 이처럼 인기 있는 이유는 오픈 소스와 저렴한 가격 때문입니다. DeepSeek이 사용하는 "혼합 전문가 모드(MoE)"는 신경망을 분할하여 컴퓨팅 파워 한계를 낮추지만, 의료 환경에서는 한계가 있습니다. 첫째, 다중 모드 상담을 지원할 수 없으며, "단일 전문가 의사 결정"은 복잡한 사례에서 진단을 놓치기 쉽습니다. 둘째, 컴퓨팅 파워를 유지하기 위해 데이터가 온라인에 무작위로 공개되어 알레르기 병력, 수술 병력 등 핵심 정보가 손실될 수 있으며, 진단 및 치료에 숨겨진 위험이 발생할 수 있습니다.

MoE 모드 워크플로

* 환각 문제:현재 DeepSeek의 최대 환각률은 50%입니다. 새 버전은 20% 미만으로 낮아질 것으로 예상되지만, 의료 상황에서는 여전히 경계해야 합니다. 위험을 줄이기 위해 "삼중 검증 메커니즘"(알고리즘 초기 선별 + 의사 검토 + 지식 기반 비교)을 사용하고 있지만, 진단 및 치료에 드는 시간 비용이 증가합니다.

* 해시 파워 트랩:소규모 컴퓨팅 센터의 전력 소비량은 이미 엄청나고, 더욱 복잡한 대규모 의료 모델을 훈련하려면 지속적인 투자가 필요합니다.

* AI 공정성:선두 병원들은 자사의 자원적 이점을 활용해 첨단 모델을 독점하고 있는데, 이로 인해 "디지털 격차"가 심화될 수 있습니다.

의료평가기준 재구축: '3단계 기준'에서 '6단계 경쟁'으로

의료 분야에 대규모 모델을 적용하는 것은 예상보다 훨씬 더 복잡합니다. 국가보건위원회는 원래 AI를 통해 의료 자원 불균형을 해소하고자 했지만, 3개월 후 그 결과가 역효과를 냈다는 것을 알게 되었습니다.  대규모 모델은 의료 자원의 불균형을 개선하기는커녕, 3차 병원의 경쟁 환경을 재편하고 있습니다.

기존 3차 병원의 평가 기준은 '유명 의사, 장비, 하드웨어 환경'이었지만, 빅모델 시대에는 새로운 기준 세 가지가 추가되었습니다.

첫 번째는 강력한 컴퓨팅 성능입니다.창궁 기념 병원은 한때 베이징 의료기관 중 두 번째로 큰 컴퓨팅 용량을 보유했지만, 장기적인 교육을 감당할 수는 없었습니다. 소규모 컴퓨팅 센터를 운영하기 시작했을 때, 건물 절반에 정전이 발생하기도 했습니다.

두 번째는 일류 데이터 거버넌스 엔지니어입니다.의료 데이터에는 전자 의료 기록, 영상, 검사 등 다양한 유형이 포함되며, 이러한 데이터는 정제, 분류 및 구조화되어야 합니다. 저희는 데이터 거버넌스 구축에 500만 달러를 투자했지만, 그 효과는 크지 않았습니다.

마침내 일류 알고리즘 엔지니어가 탄생했습니다."블랙박스" 문제와 "환각" 인식 문제를 해결하기 위해서는 의학적 시나리오에 맞춰 알고리즘을 맞춤화해야 합니다.

스마트 헬스케어: 헬스케어 모델의 데이터 기반 혁신

아래 그림에서 볼 수 있듯이, 1950년 이후 10억 달러의 R&D 투자 대비 승인된 신약의 수는 거의 9년마다 절반으로 줄었습니다. 이러한 추세는 지난 60년 동안 매우 안정적으로 유지되었습니다. 이러한 현상은 제약 업계에서 반(反)무어의 법칙으로 알려져 있습니다.새로운 약물을 개발하는 데 드는 비용은 점점 더 높아지고 있으며, 약물 연구 개발은 심각한 생산성 위기에 직면해 있습니다.

제약 산업 동향

이는 제약 산업뿐만 아니라 의료 산업 전체에도 해당됩니다. 아래 그림에서 볼 수 있듯이,2018년 통계에 따르면, 중국 3급 병원의 수는 전국 7,63%를 차지하지만, 전국 외래환자 수의 50,97%를 담당했습니다.의료 자원의 불균형, 낮은 진단 및 치료 효율성, 인구 고령화로 인한 질병 스펙트럼 변화의 압력 등 여러 문제가 제기되고 있습니다. 따라서 스마트 헬스케어 시대에 AI는 의료 혁신을 가속화하는 데 필수적입니다.

2018년 우리나라의 의료 자원 및 진단 요구 사항 
(단위: 가구, 1억 명, %), 출처: 국가위생건강위원회(전망산업연구소 편찬)

벤치마크로서의 기존 로지스틱 회귀 스티어링 알고리즘

임상 및 제약 분야가 AI의 추세를 수용함에 따라, 기존의 로지스틱 회귀 분석은 임상 연구에 활용될 수 있지만, 상당한 단점을 가지고 있습니다. 장기 대기 오염과 심근 섬유증의 상관관계를 정량적으로 평가하는 연구를 예로 들면, 기존의 방법들은 일반적으로 사회인구학적 특성, 바이오마커, 그리고 영상 보고서(비영상 오믹스)를 수집하고, PM2.5와 PM10과 같은 변수를 모델에 통합하여 질병(예: 신체 섬유증)과의 상관관계를 분석합니다.

그러나 1970년대 이후 이러한 유형의 상관관계 분석에는 근본적인 결함이 있습니다. 의학 연구는 인과관계를 탐구해야 하지만, 전통적인 방법은 미리 설정된 변수의 상관관계만 발견할 수 있고, 모델에 사전 검토되지 않은 새로운 위험 요인을 찾아낼 수 없어 "닭이 먼저냐 달걀이 먼저냐"의 역설에 빠지게 됩니다. 또한,기존의 상관관계 분석은 변수 상호작용을 처리하는 데 어려움이 있으며, 일반적으로 두세 가지 요인의 상호작용만 분석할 수 있습니다. 수백 또는 수천 개의 변수를 처리할 수 없고, 이미지 데이터에 직접 접근할 수 없습니다.

대조적으로,알고리즘 분석에는 상당한 이점이 있습니다. 다변수 상호 작용을 처리하고, 방대한 양의 데이터(이미지 포함)를 통합하고, 토큰의 반복적인 학습(10,000회 또는 1억 회 실행)을 통해위험 요소가 지속되면 이는 "인과 관계"로 간주될 수 있는데, 이는 의학적 연구에 필요한 인과 관계에 더 가깝습니다.

의료 AI의 4가지 요소 재구성: 시나리오 우선 자원 할당

스마트 헬스케어는 현대 정보 기술을 활용하여 의료 서비스와 관리를 개선하고 강화하는 새로운 의료 모델로, 의료 효율성 향상, 의료비 절감, 환자 경험 개선을 목표로 합니다. 스마트 헬스케어의 핵심 기반은 빅데이터, 클라우드 컴퓨팅, 사물 인터넷, 그리고 AI입니다.

전통적인 인지에서 인공지능의 세 가지 요소는 알고리즘, 컴퓨팅 능력, 데이터입니다.그러나 의료 시나리오에서는 알고리즘, 컴퓨팅 파워, 데이터, 응용 시나리오의 "4요소 이론"을 제안하며, 각각의 비율은 10%, 30%, 40%, 20%입니다.국내외 알고리즘 간 차이가 크지 않고 대부분 오픈 소스이기 때문에 의료 AI 요소에서 차지하는 비중이 가장 낮습니다. 클라우드 컴퓨팅 파워를 임대하여 컴퓨팅 파워를 확보할 수 있으며, 애플리케이션 시나리오를 보조적으로 활용하여 임상적 요구를 모델이 이해할 수 있는 "작업"으로 변환하는 의미론을 제공합니다. 이를 통해 "데이터"가 결정적인 요소임을 확인했습니다. 중국은 의료 데이터 양에서 세계 선두를 달리고 있지만, 낮은 전자화율은 "미개발 금광"과 같은 존재가 되었습니다. 2028년까지 전 세계적으로 증가하는 전통적인 구조화된 의료 데이터로는 대규모 모델(데이터 수집이 1550년에 시작됨)의 요구를 충족하기 어려울 것으로 예상되며, 중국은 과거 데이터가 완전히 정보화되지 않았기 때문에 글로벌 의료 연구 개발의 핵심 데이터베이스가 될 것입니다.

의료 데이터 교육에 대한 두 가지 접근 방식

많은 사람들이 대규모 모델 학습에 대해, 예를 들어 병원 데이터를 학습에 직접 사용할 수 있는지 여부에 대해 의문을 품고 있습니다. 그러나 경험에 비추어 볼 때 이러한 접근 방식은 실현 가능하지 않습니다.대규모 모델을 훈련하는 데에는 두 가지 접근 방식이 있습니다.

첫째, 대규모 모델에 필요한 데이터 양이 임상 연구에 필요한 데이터 양을 훨씬 초과합니다.병원에서 임상 연구에 활용할 수 있을 만큼 데이터를 관리하는 것은 쉽지 않지만, 대규모 모델 학습은 데이터에 대한 요구 사항이 더 높습니다. 대규모 모델에는 비지도 학습 기능이 있지만, 비지도 학습에만 의존하는 것은 마치 의사가 자연스럽게 주치의로 성장하는 것과 같아서 속도가 너무 느리고 실제 요구를 충족할 수 없기 때문입니다. 학습 속도를 높이려면 의사 결정 트리를 탑재해야 합니다. 즉, 대규모 모델에 데이터를 입력하는 것만으로는 충분하지 않고, 데이터를 더욱 심층적으로 처리하고 최적화해야 합니다.

둘째, 병원에서 대규모 모델을 직접 학습에 사용하려면 "도서관 + 전문 도서관 + 특수 질환 도서관 + 특수 프로젝트 도서관"의 데이터 거버넌스 모델을 채택해야 합니다.이 모델은 천탄병원 등 여러 병원의 실제적인 탐색을 통합하여 개발되었으며, 현재 대규모 모델 학습에 더욱 적합한 데이터 모델로 평가받고 있습니다. 이러한 계층적 데이터 거버넌스 구조는 대규모 모델에 대한 고품질의 체계적인 데이터를 더욱 집중적으로 제공하여 대규모 모델 학습의 효과와 효율성을 향상시킬 수 있습니다.

특수 데이터베이스 구축의 예시 다이어그램

심혈관 및 당뇨병 연구: 데이터 기반 혁신 모델

마지막으로, 스마트 헬스케어를 기반으로 진행한 두 가지 연구에 대해 간략하게 설명하겠습니다.

심혈관 AI: '웨어러블 기기'에서 '전심장 모델'까지

Statista의 2025년 글로벌 스마트 헬스케어 시장 규모 전망에 따르면, 심혈관 분야는 전체 시장의 4분의 1을 차지하며 가장 큰 시장 부문이 될 것입니다. 디지털화는 심혈관 질환의 급성기와 회복기에 걸쳐 진행됩니다.

1세대 Apple Watch가 출시된 후, 단일 리드는 12개 리드보다 더 정확한 예측을 달성했으며, 착용자의 심방세동(AFib) 및 기타 유형의 부정맥을 식별하여 1차 진료에 혁신을 가져왔습니다. 이러한 영감을 바탕으로,저희 팀은 "웨어러블 기기 기반의 심전도(ECG) 파형을 통해 부정맥을 조기에 예측할 수 있는데, ECG 기능이 없는 다른 웨어러블 기기도 심박수만으로 같은 효과를 얻을 수 있을까?"라는 가설을 제시했습니다.일련의 검증을 거쳐 다른 기기들도 최대 99.67%의 정확도로 동일한 효과를 얻을 수 있음을 확인했습니다. 저희 팀은 일반 스포츠 팔찌의 24시간 분당 심박수를 수집하여 부정맥 지속 시간을 예측했습니다.

3개의 ECG를 기반으로 한 다양한 모델 비교

더 나아가서,우리는 두 번째 가설을 제시했습니다. "심전도 파형과 심박수 외에도 부정맥을 조기에 예측할 수 있을까요? 심장의 네 방의 수축/이완이 부정맥에 관여할까요? 만약 그렇다면 예측할 수 있을까요?"심혈관, 신경, 근육 등 다차원 데이터를 통합하는 "전체 심장 모델"은 저희의 추가 검증을 거쳐 알고리즘을 통해 심장을 "패키징"할 수 있습니다. 최종 결과는 모든 심장 기능 데이터를 통합하여 부정맥 위험을 예측할 경우 최대 15년까지 질병 위험을 정확하게 예측할 수 있음을 보여줍니다. 관련 결과는 JACC 하위 저널(영향력 지수 24+)에 게재되었습니다.

논문 제목:AI 기반 CT 심장 챔버 체적 측정, MRI와 비슷한 수준으로 심방세동 및 뇌졸중 예측

서류 주소:https://www.jacc.org/doi/abs/10.1016/j.jacadv.2024.101300

심방세동(AF)의 장기 예측(15년)

당뇨병 연구: '합병증 스펙트럼'에서 '인과 메커니즘'까지

또 다른 연구는 대규모 모델을 기반으로 한 질병 네트워크 분석입니다. 이전에는 조기 발병 당뇨병(40세 이전에 발병)이 정상 발병 당뇨병보다 경미하다고 생각했습니다. 예를 들어, 20세에 당뇨병이 발생한 사람은 30세에 정상적인 혈압과 혈중 지질 수치를 유지하고 합병증이 없는 반면, 40세에 당뇨병이 발생한 사람은 50세에 비정상적인 지표와 다른 질환을 가질 수 있습니다. 그러나 전신 당뇨병 합병증 스펙트럼 연구를 통해 다음과 같은 사실이 밝혀졌습니다.조기 발병 당뇨병의 합병증에 대한 시스템 상호작용은 더욱 강렬하며, 벡터 경로 연관성이 있는데, 이는 사람의 본래적 인지와 다릅니다.

조기 발병형 2형 당뇨병의 특징적인 합병증 스펙트럼
(왼쪽: 조기 발병 당뇨병, 오른쪽: 정상적으로 진단된 당뇨병, 각기 다른 색상의 원은 다른 시스템을 나타냄)

미래 전망: 데이터 인텔리전스 시대의 헬스케어를 위한 새로운 패러다임

최근 몇 년 동안 중국의 의료 AI는 급속도로 발전하고 있습니다. 리궈지에 원사는 "이제 인류는 정보화 시대의 지능화 단계에 접어들었고, 지능화 시대로 나아가고 있습니다. 지능 과학 연구 패러다임이 등장하여 '제5의 과학 연구 패러다임'이 될 수 있습니다."라고 말했습니다. 시대를 이해하는 데 있어 실수는 용납될 수 없습니다. 시대 전환의 기회를 놓치면 차원 축소라는 역사적인 타격을 입게 될 것입니다.

앞으로 우리는 다음과 같은 분야에 대해 노력해야 합니다.

* 박사 수준:데이터는 미래의 피할 수 없는 추세이며, 학제간 협력(의학과 공학의 결합)은 데이터를 활용한 혁신적인 연구를 수행하는 데 필요한 조건입니다.의료+데이터 융합형 인재 양성이 최우선 과제입니다.의사는 알고리즘 엔지니어와 데이터 과학자와 보다 효과적으로 협업하여 의료 분야에서 AI의 적용 효과를 개선하기 위해 특정 AI 지식(모델 평가 및 데이터 해석 등)을 숙지해야 합니다.

알고리즘 수준:오늘날 데이터 기반 모델은 높은 학습 비용이라는 문제에 직면해 있습니다. 앞으로는 의료 환경에 더 적합한 경량 모델을 개발하고자 합니다.컴퓨팅 능력 한계를 낮추고 알고리즘의 임상 적용에 대한 해석 가능성과 신뢰성을 향상시킵니다.특히, 의사와 환자 사이에서 AI에 대한 수용도가 높아지고, AI가 의료에 통합될 것입니다.

병원 수준:좋은 연구 아이디어가 없고 혁신에 어려움을 겪는다면, 데이터부터 시작하여 최신 정보 과학 연구 방법을 활용하는 것이 좋습니다. 따라서 병원은 이를 장려하고 적극적으로 지원해야 합니다. 과학 연구 데이터룸은 데이터 수준에서 의료 혁신을 위한 핵심 서비스를 제공하기 위해 컴퓨팅, 스토리지, 네트워크, 보안 및 기타 인프라를 갖춰야 합니다.

빅 모델이 만병통치약은 아니지만, 그 이면에 있는 데이터 사고는 의학의 본질을 재편하고 있습니다. 우리가 데이터로 이야기를 전달하고 알고리즘으로 답을 찾는 법을 진정으로 터득할 때, "데이터 인텔리전스 + 의학적 본질"을 깊이 있게 통합하여 의료 혁신의 주도권을 잡고, 스마트 의학이 환자에게 진정한 도움을 주고 사회에 환원할 수 있도록 만들 수 있습니다.

리동 교수 소개

리 동 교수는 의학 박사로, 국제적으로 저명한 의료 데이터 과학 전문가입니다. 그는 현재 칭화대학교 부속 베이징 칭화 창궁병원 의료 데이터 과학센터 소장이자 칭화대학교 생명공학과 석좌교수입니다. 리 동 교수는 캘리포니아대학교 로스앤젤레스 캠퍼스 하버 메디컬센터 임상연구센터의 최초 중국인 소장을 역임했으며, 쓰촨대학교 서중국병원 석좌교수로 임용되었습니다.

리동 교수는 지난 5년간 세계 유수 학술지에 100편 이상의 SCI 논문을 발표했으며, 해당 논문들은 약 4,000회 인용되었습니다. 또한 220편 이상의 학술대회 초록을 게재했습니다. 또한 40회 이상의 학술 강연 초청을 받았고, 4편의 학술 논문 집필에 참여했으며, 2건의 발명 특허를 보유하고 있습니다.

그의 연구는 임상 연구 설계, 측정 및 평가, 모델링 분석, 의료 데이터 마이닝, 그리고 의학 분야에서 인공지능의 적용을 포함한 광범위한 분야를 아우릅니다. 그는 임상 연구팀을 이끌고 의료 빅데이터 마이닝을 수행하고 지능형 의료 의사결정 분석 시스템을 개발한 풍부한 경험을 보유하고 있으며, 이 분야의 권위자로 인정받고 있습니다.