ICML 2025 선정! 하버드 의대 등에서 HIE 분야에서 세계 최초의 임상 마인드맵 모델을 출시하여 신경인지 결과 예측 과제에서 15%의 성능 향상을 보였습니다.

인공지능 기술이 눈부시게 발전함에 따라, 대규모 시각 언어 모델(LVLM)은 놀라운 속도로 여러 분야의 인지적 경계를 재구성하고 있습니다.자연 이미지 및 비디오 분석 분야에서고급 신경망 아키텍처, 방대한 레이블이 지정된 데이터 세트 및 강력한 컴퓨팅 지원을 기반으로 이러한 유형의 모델은 객체 인식 및 장면 분석과 같은 고수준 작업을 정확하게 완료할 수 있습니다.자연어 처리 분야에서는LVLM은 TB 수준의 텍스트 코퍼스를 학습하여 기계 번역, 텍스트 요약, 감정 분석 등의 작업에서 전문가 수준의 성능을 달성했습니다. 생성된 학술 초록은 의학 문헌의 핵심 결론을 정확하게 추출할 수도 있습니다.
그러나 의료 분야에 기술 혁신이 급속도로 확산됨에 따라, LVLM 구현은 상당한 저항에 부딪혔습니다. 임상 상황에서 지능형 보조 진단에 대한 요구가 매우 시급함에도 불구하고, 이러한 모델의 의료적 적용은 아직 초기 탐색 단계에 있습니다.핵심 병목 현상은 의료 데이터의 고유한 속성에서 비롯됩니다.환자 개인정보 보호 규정, 의료 데이터 고립 효과, 윤리적 검토 메커니즘 등 여러 제약으로 인해 공개적으로 이용 가능한 고품질 의료 데이터 세트의 규모는 일반 분야의 10,000분의 1에 불과합니다.기존 의료 데이터 세트 대부분은 기본적인 시각적 질의응답 아키텍처를 사용하며, "이것은 어떤 해부학적 구조인가?"와 같은 주요 패턴 인식 작업에 초점을 맞춥니다.——예를 들어, 공개 데이터 세트에는 200,000개의 X선 주석이 포함되어 있지만 90%의 주석 내용은 장기 국소화 수준에 머물러 있으며 병변 심각도 등급 및 예후 위험 평가와 같은 핵심적인 임상적 요구 사항을 다룰 수 없습니다.
데이터 공급과 실제 수요 간의 이러한 불일치로 인해 모델은 신생아 저산소성 허혈성 뇌병증(HIE) MRI 영상을 볼 때 기저핵의 비정상 신호를 식별할 수 있지만, 임신 주수와 산전 병력과 같은 다차원 정보를 통합하여 신경발달 예후를 예측할 수 없습니다.
이러한 딜레마를 극복하기 위해 보스턴 소아병원, 하버드 의대, 뉴욕대학교, MIT-IBM 왓슨 연구실의 학제간 팀은 저산소성 허혈성 뇌병증(HIE)을 앓고 있는 133명의 10년간의 MRI 이미지와 전문가 해석을 수집했습니다.전문가 수준의 의료 추론 벤치마크 데이터 세트를 구축했습니다.의료 전문 분야에서 LVLM의 추론 성능을 정확하게 평가하는 것을 목표로 합니다.연구팀은 또한 임상 마인드맵 모델(CGoT)을 제안했다.임상 지식에 기반한 마인드 매핑 프롬프트를 통해 진단 과정을 시뮬레이션하는 기능을 통해 도메인별 임상 지식을 시각적, 텍스트 입력으로 통합할 수 있어 LVLM의 예측 능력이 크게 향상됩니다.
"전문가 수준의 사고 그래프 의학적 추론을 위한 시각적 및 도메인 지식"이라는 제목의 관련 연구 결과가 ICML 2025에 성공적으로 선정되었습니다.
연구 하이라이트:
* 임상적 시각 인식과 전문적 의료 지식을 처음으로 결합하고, 임상적 의사 결정 과정을 시뮬레이션하며, 의학적 추론에서 LVLM의 전문적 성과를 정확하게 평가하는 새로운 HIE 추론 벤치마크 테스트를 만듭니다.
* 고급 일반 LVLM과 의료 LVLM을 종합적으로 비교하여 의료 분야 지식 측면에서의 한계를 밝히고 모델 개선 방향을 제시합니다.
* 의료 전문 지식과 LVLM을 통합하고, 임상적 의사결정 과정을 모방하며, 의료적 의사결정 지원을 효과적으로 강화하는 CGoT 모델을 제안했습니다.

서류 주소:
https://openreview.net/forum?id=tnyxtaSve5
더 많은 AI 프런티어 논문:
https://go.hyper.ai/owxf6
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
HIE-Reasoning: 다중 모드 데이터 세트 구축 및 전문적 추론 작업 시스템 생성
데이터 구성 측면에서 이 연구는 심각한 신생아 질병인 저산소성 허혈성 뇌병증(HIE)에 초점을 맞춥니다.10년에 걸쳐 0~14일 된 HIE 어린이 133명의 고품질 MRI 이미지가 수집되었습니다.여러 분야의 전문가(30년 경력의 선임 신경방사선과 전문의 포함)가 임상적으로 검증한 해석 보고서를 동시에 확보하여 종단적 추적을 위한 핵심 데이터 세트를 형성합니다.
아래 그림에서 볼 수 있듯이 연구자들은 LVLM이 전문적인 임상 추론을 수행하기 위해 6가지 작업을 정의했습니다.
* 과제 1: 병변 등급 평가.이 과제는 HIE 병변으로 인해 영향을 받은 뇌 부피의 비율을 추정하고 병변의 심각도를 평가하여 뇌 손상을 정량화합니다.
* 과제 2: 병변 해부학.이 작업은 병변으로 인해 영향을 받은 뇌의 구체적인 영역을 식별합니다.
* 미션 3: 희귀한 위치의 병변.이 작업은 HIE로 인한 병변을 식별하고 영향을 받는 부위를 흔한 부위와 흔하지 않은 부위로 분류하여 환자에게 추가적인 주의가 필요한지 여부를 판단하는 데 도움이 됩니다.
* 과제 4: MRI 손상 점수.이 작업은 MRI에서 얻은 전반적인 부상 점수를 출력하여 부상 심각도를 표준화된 척도로 측정하고, 이를 통해 치료를 안내하고 결과를 예측합니다.
* 과제 5: 2년간의 신경인지 결과.이 연구는 2년 후 환자의 신경인지적 결과를 예측하여 임상의가 장기적인 영향을 예상하고 적절한 개입을 계획하는 데 도움이 됩니다.
* 과제 6: MRI 해석 요약.이 작업은 방사선과 의사가 권장한 신생아 MRI 요약 템플릿을 기반으로 하며 환자에 대한 포괄적인 MRI 해석을 생성할 수 있습니다.

결정적인,연구진은 749개의 질문-답변 쌍과 133개의 MRI 해석 요약을 포함하는 세계 최초의 공개 HIE 데이터 세트인 HIE-Reasoning을 구축했습니다.영상 방법 인식 및 장기 위치 지정과 같은 기본 문제에 초점을 맞춘 VQAmed 및 OmiMed-VQA와 같은 기존 의료 데이터 세트와 달리이 데이터 세트는 임상 전문가의 심층적 추론 과정을 최초로 계산 가능한 평가 시스템으로 변환합니다.데이터 구조 혁신은 환자 수준의 원본 이미지 및 작업 파일, 사례 간 메타 지식 추론 템플릿, 그리고 개별 병변 확률 맵의 3중 구조를 채택합니다. 의료 데이터의 무결성을 유지할 뿐만 아니라, 모델에 병리학적 기전을 포함한 명시적 지식 입력을 제공합니다.
17년(2001-2018)의 다기관 후향적 수집을 통해 표본 크기가 133건에 불과했지만, 3차 병원에서 HIE의 발생률이 1-5‰로 낮았다는 점을 고려하면,이 데이터 세트는 영상, 임상, 예후 다중 모드 정보를 통합한 최초의 HIE 전용 벤치마크가 되었습니다.라벨링 정확도와 임상적 깊이는 규모의 한계를 보완하기에 충분하며, LVLM이 "기본 식별"의 병목 현상을 극복하고 진단 및 치료 결정의 심층적인 영역에 진입할 수 있는 필수적인 벤치마크를 제공합니다.
CGoT 모델: 임상적 사고 맵을 기반으로 해석 가능한 계층적 의학적 추론을 위한 새로운 프레임워크 구축
연구팀은 의학적 추론에서 기존 대규모 시각 언어 모델(LVLM)의 해석 병목 현상을 극복하기 위해(아래 그림 A 참조), 아래 그림 BC와 같이 임상 목표 맵 모델(CGoT)을 제안했습니다. 임상 지식을 통합하여 의사의 진단 과정을 시뮬레이션하는 언어 모델을 구축함으로써 신경인지 결과 예측의 신뢰성을 크게 향상시킬 수 있습니다.이 모델은 혁신적으로 구조화된 "추론 마인드 맵"을 채택합니다.의료 전문가의 진단 단계를 점진적으로 지식을 축적하여 복잡한 작업을 해결할 수 있는 계층적 추론 파이프라인으로 전환합니다.

텍스트 지식은 메타임상 지식(뇌 해부학적 지도, 병변 분포 패턴, MRI 바이오마커 예후 연관성 등 일반적인 의학적 배경 포함)과 개별 임상 지식(이전 작업의 결과를 통해 동적으로 생성된 환자별 진단 단서)으로 구분됩니다. 두 유형의 지식은 LVLM이 "임상 지침-영상 특징-개인 병력"의 논리적 사슬에 따라 단계별로 추론할 수 있도록 신속한 엔지니어링 방식으로 구조화되고 입력됩니다.
전체 프레임워크는 임상 그래프의 구조화된 프롬프트와 교차 모달 지식을 통합하여 암묵적인 의료 진단 논리를 계산 가능한 모델 입력으로 변환합니다. 이를 통해 LVLM의 교차 모달 처리 기능을 유지할 뿐만 아니라, 임상 지식을 기반으로 추론 과정의 무작위성을 방지합니다.
CGoT 임상 추론 성능 평가, 핵심 과제에서 획기적인 개선 달성
연구팀은 HIE-Reasoning 벤치마크와 CGoT 모델의 효과를 검증하기 위해 다차원 실험 시스템을 설계했습니다.
첫 번째,연구자들은 6개의 대규모 시각 언어 모델에 대해 제로샷 평가를 실시했습니다.세 가지 유형의 일반 LVLM(Gemini1.5-Flash, GPT4o-Mini, GPT4o)과 세 가지 유형의 의료 LVLM(MiniGPT4-Med, LLava-Med, Med-Flamingo)을 기준 모델로 선정했습니다. 병변 등급, 해부학적 위치, 예후 예측을 포함한 여섯 가지 주요 임상 과제는 정확도, MAE, F1 점수, ROUGE-L과 같은 과제별 지표를 사용하여 평가했습니다. 2년 신경인지 결과 예측은 범주 간 평균 정확도를 사용하여 라벨 분포 편향을 보정했습니다.
실험 결과는 기존 LVLM의 심각한 한계를 보여줍니다. MRI 슬라이스와 작업 설명을 직접 입력할 경우, 모든 기준 모델이 전문적인 의학적 추론 작업에서 성능이 저하됩니다. 일부 모델은 환각적인 답변을 하거나 임상 지식 부족으로 인해 보수적으로 답변을 거부합니다. 예를 들어, Med-Flamingo는 해부학적 위치 지정 작업에서 무의미한 반복적인 내용을 생성하며, GPT4o 시리즈는 정렬 전략으로 인해 높은 불확실성 문제를 처리할 수 없습니다.
다음 표에서 보여지는 것처럼, 극명한 대조를 이루며,CGoT 모델은 임상 마인드 맵과 크로스 모달 지식을 통합하여 핵심 작업에서 획기적인 개선을 달성합니다.——특히 2년 예후 예측의 핵심적 임상적 필요성에서 기준 모델과 비교했을 때 15% 이상의 성능이 향상되었으며, 병변 등급 및 손상 점수와 같은 작업의 정확도와 일관성도 대조군보다 유의미하게 우수했습니다.


동시에, 강건성 실험 결과, 10%-30%의 중간 과제 결과에 ±1 수준의 점수 변동을 도입하더라도 모델 성능은 점진적으로 감소하는 것으로 나타나, 임상 현장에서 흔히 발생하는 데이터 노이즈에 적응할 수 있음을 보여줍니다. 이러한 결과는 다음과 같은 점을 시사합니다.CGoT는 임상 진단의 계층적 추론 과정을 시뮬레이션함으로써 기존 모델의 지식 사각지대를 극복할 뿐만 아니라 실제 진단 및 치료 시나리오에 가까운 신뢰할 수 있는 의사결정 지원 시스템을 구축합니다.
의료용 LVLM의 듀얼 휠 구동: 학계와 비즈니스의 혁신적 관행 및 동향
전 세계적으로 의료 분야에서 대규모 시각 언어 모델(LVLM)에 대한 연구와 응용이 패러다임 전환을 겪고 있으며, 학계와 기업 사회의 혁신적인 관행이 이 분야에서 획기적인 발전을 이끌고 있습니다.
학술 연구 측면에서는 상하이 인공지능 연구실이 워싱턴 대학, 모나쉬 대학, 화동사범 대학 등의 연구 기관과 함께 GMAI-MMBench 벤치마크 테스트를 공동으로 발표했습니다.여기에는 38개 의료 영상 방식과 18개 핵심 임상 요구 사항(종양 진단, 신경 영상 분석 등)을 포괄하는 284개 임상 작업 데이터 세트가 통합되어 있습니다.벤치마크는 어휘 트리 분류 시스템을 사용하여 사례를 부서, 양식, 작업 유형별로 정확하게 분류하고 LVLM의 임상 추론 능력을 평가하기 위한 표준화된 프레임워크를 제공합니다.
* 전체 보고서를 보려면 여기를 클릭하세요. 18개 임상 작업을 다루는 284개 데이터 세트를 포함하는 Shanghai AI Lab과 다른 연구진이 다중 모드 의료 벤치마크 GMAI-MMBench를 출시했습니다.
또한, 에모리 대학교, 남가주 대학교, 도쿄 대학교, 존스 홉킨스 대학교가 공동으로 개발한 Med-R1은 기존의 지도 미세 조정(SFT) 방법의 한계를 해결하기 위해 그룹 상대 정책 최적화(GRPO)를 혁신적으로 도입했습니다.복잡한 가치 모델 없이 규칙 보상과 그룹 비교를 통해 안정적인 정책 업데이트를 제공합니다.홍콩과학기술대학교에서 출시한 MedDr과 같은 오픈소스 LVLM은 특정 작업(예: 병변 등급)에서 상용 모델에 가까운 성능을 달성하여 의료 AI 분야에서 오픈소스 생태계의 잠재력을 보여주었습니다.
업계는 기술 구현을 핵심으로 LVLM의 임상적 변혁을 가속화하고 있습니다. 예를 들어, Microsoft Azure Medical Cloud Platform은 AI 도구와 임상 데이터를 통합하여 의료 영상 분석, 전자 의료 기록 자동화 및 기타 기능을 긴밀하게 통합했습니다. 여러 병원과 협력하여 개발한 지능형 영상의학 시스템은LVLM을 통해 MRI 이미지에서 비정상적인 영역을 빠르게 식별하고 구조화된 보고서를 생성하는 기능입니다.의사가 병변 등급을 매기고 해부학적 위치를 정하는 작업을 완료하도록 돕습니다.
구글은 Gemma3 아키텍처를 기반으로 의료 및 건강 분야를 위해 특별히 설계된 오픈소스 의료 모델 MedGemma를 출시했습니다. MedGemma는 의료 이미지와 텍스트 데이터 분석을 완벽하게 결합하여 의료 및 건강 애플리케이션을 향상시키고 의료 진단 및 치료의 효율성을 향상시키는 것을 목표로 합니다.
* 자세한 보고서를 보려면 여기를 클릭하세요: Google에서 Gemma 3 기반으로 구축되어 의료 텍스트 및 이미지 이해를 전문으로 하는 MedGemma 출시
이러한 관행은 의료용 LVLM 개발의 두 가지 주요 경향을 보여줍니다.첫째, 임상 지식과 모델 아키텍처의 긴밀한 통합입니다.예를 들어, 본 논문에서 설명하는 HIE-Reasoning 벤치마크의 전문가 주석을 통해 구축된 작업 시스템과 CGoT 모델이 도입한 임상적 사고 맵 등이 있습니다.두 번째는 학제간 협업과 데이터 거버넌스의 혁신입니다.예를 들어, GMAI-MMBench는 통합된 주석 형식과 윤리 준수 프로세스를 통해 글로벌 데이터 세트를 통합하여 의료 데이터 부족 문제를 해결하는 모델을 제공합니다. 앞으로 연합 학습 및 합성 데이터 생성과 같은 기술의 추가적인 적용을 통해 학계와 업계는 더욱 복잡한 임상 시나리오(예: 다중 모드 예후 예측 및 실시간 수술 내비게이션)에서 획기적인 발전을 이룰 것으로 예상되며, 이는 AI가 보조 도구에서 지능형 의사 결정 파트너로의 전환을 진정으로 촉진할 것입니다.
참고문헌:
1.https://blog.csdn.net/Python_cocola/article/details/146590017
2.https://mp.weixin.qq.com/s/0SGHeV8OcXu8kFk68f-7Ww