싱가포르 국립대학교는 다차원 EHR 데이터를 기반으로 세분화된 환자 코호트 모델링을 구현했으며, 병원 체류 예측 정확도가 16.3% 증가했습니다.

의료 정보 기술이 급속도로 발전하는 오늘날, 전자 건강 기록(EHR)은 의료 시스템의 중요한 핵심 구성 요소가 되었습니다. 체계적인 구조를 갖춘 EHR은 환자의 의료 기록을 전자 형태로 정확하게 저장합니다.기본 인구 통계부터 역동적이고 시간에 따라 변하는 의료 특성까지 모든 것을 포괄합니다.이는 의료 행위의 모든 측면에 대한 견고한 데이터 지원을 제공하고 임상적 의사 결정 지원, 환자 관리 최적화 등의 핵심 영역에서 대체 불가능한 역할을 수행합니다.
2020년 COVID-19 팬데믹이 절정에 달했을 당시 임상 실무를 되돌아보면, 의사들은 다양한 연령대 환자 코호트를 구축하여 주요 패턴을 발견했습니다. 50~70세 환자는 호흡곤란이나 인지 기능 저하와 같은 중증 증상을 경험할 가능성이 더 높았고, 20~40세 환자는 대부분 경증이거나 무증상이었습니다. 이 코호트 기반 비교 분석은 진단 및 치료 계획 수립의 직접적인 기반을 제공할 뿐만 아니라, 오랫동안 간과되어 온 EHR 표현 학습의 핵심 요소인 환자 코호트를 밝혀냅니다.
의학 연구의 기본 단위인 코호트는 공통적인 특징을 통해 유사한 임상적 특징을 가진 환자 집단을 식별합니다. 코호트의 가치는 개별 데이터의 단순한 축적을 훨씬 뛰어넘습니다. 발열 증상과 COVID-19 감염 간의 상관관계와 같이 특정 집단의 질병 패턴을 파악할 뿐만 아니라 정밀 의료 개입을 위한 표적 증거를 제공할 수 있습니다. 그러나 기존의 코호트 구분 방식은 많은 한계를 가지고 있으며, 정교한 EHR 데이터 처리 요건을 충족하기 어렵습니다.세분화된 대기열 구분이 이루어지지 않으면 노이즈가 쉽게 유입되고 대기열 내부와 대기열 간의 귀중한 정보를 충분히 활용할 수 없습니다.
이러한 맥락에서,싱가포르 국립대학교와 저장대학교는 공동으로 혁신적인 방법인 NeuralCohort를 제안하여 EHR 표현 학습을 위한 새로운 길을 열었습니다.이 방법은 독창적인 이중 모듈 아키텍처를 통해 기존의 어려움을 극복하고 EHR 데이터의 잠재력을 최대한 발휘하며 의료 분석에 강력한 추진력을 불어넣을 것으로 기대됩니다. 의료 분야에서의 이 방법의 응용 가능성은 많은 주목을 받고 있습니다. 의료 데이터 분석과 임상 의사 결정 모델을 근본적으로 변화시키고, 의료 산업이 더욱 지능적이고 정밀한 발전을 향해 나아가도록 촉진할 것으로 기대됩니다.
관련 연구 결과는 "NeuralCohort: Healthcare Analytics를 위한 코호트 인식 신경 표현 학습"이라는 제목으로 ICML 2025에 선정되었습니다.
연구 하이라이트:
* 본 연구에서 제안하는 NeuralCohort는 세분화된 큐 생성을 지원하는 데 중점을 둔 큐 인식 신경 표현 학습 방법입니다.
* NeuralCohort는 이전 전자 건강 기록 분석 연구에서 적절하게 다루어지지 않았던 핵심 요소인 코호트 내 로컬 정보와 코호트 간 글로벌 정보를 혁신적으로 활용합니다.
* NeuralCohort의 장점은 뛰어난 호환성과 다양한 백본 모델에 완벽하게 통합될 수 있다는 것입니다. 다재다능한 플러그인으로 활용하여 코호트 정보를 의료 분석에 통합하여 전반적인 성능을 향상시킬 수 있습니다.

서류 주소:
https://openreview.net/forum?id=bqQVa6VRvm
더 많은 AI 프런티어 논문:
https://go.hyper.ai/owxf6
EHR 데이터 시스템: 다차원 의료 정보 통합 및 임상 연구 데이터 세트 지원
이 연구에서 다루는 핵심 데이터 시스템은 전자 건강 기록(EHR)을 기반으로 합니다.해당 데이터 구조는 환자의 전체 의료 정보를 통합합니다.입원, 외래, 응급실에 대한 상세 기록과 임상 진단, 치료 계획, 투약 내역, 검사 결과, 영상 검사 결과, 임상 기록 등 다차원 정보를 포함하여 환자 건강 상태를 종단적으로 추적하는 구조화된 데이터베이스를 구축하고, 임상 의사 결정, 개인 맞춤 의료, 그리고 인구 건강 연구를 위한 풀체인 데이터 지원을 제공합니다. 아래 표에서 볼 수 있듯이, 본 연구에 사용된 구체적인 데이터 세트는 다음과 같습니다.
MIMIC-III 데이터 세트는 53,423개의 고유한 입원 기록을 담고 있는 중요한 대중 접근 의료 리소스입니다.이 데이터베이스에는 2001년부터 2012년까지 베스 이스라엘 데카니 의료 센터의 중환자실에 입원한 16세 이상 성인 환자의 정보가 포함되어 있으며, 익명화된 2,083,180건의 임상 기록이 포함되어 있어 환자 질병의 진행, 치료 과정 및 임상적 의사 결정에 대한 심층적인 통찰력을 제공합니다.
MIMIC-IV 데이터 세트는 2008년부터 2022년 사이에 수집된 환자 입원 정보에 초점을 맞춥니다.모듈형 데이터 구성 구조를 채택하여 데이터 소스의 추적성과 독립성을 강조하고, 연구자들이 필요에 따라 다양한 데이터 소스와 공동 데이터를 유연하게 활용할 수 있도록 편의성을 제공합니다.
Diabetes130 데이터 세트는 1999년부터 2008년까지 미국 내 130개 병원과 통합 의료 네트워크의 임상 치료 데이터를 수집합니다.당뇨병 치료 분야의 패턴 분석에 초점을 맞추고, 고유한 데이터 주제와 장기간의 데이터 축적을 통해 과거 당뇨병 치료 패턴에 대한 심층 연구를 위한 정확한 데이터 지원을 제공하고, 당뇨병 환자를 위한 치료 계획을 최적화하며, 안전하고 개인화된 의료 서비스를 제공합니다.

NeuralCohort 모델: 듀얼 모듈 기반 코호트 인식 EHR 표현 학습 프레임워크
전자 건강 기록(EHR) 데이터의 표현 학습 효과를 강화하기 위해 환자 코호트를 효과적으로 통합하기 위해 NeuralCohort는 사전 컨텍스트 코호트 합성 모듈과 이중 규모 코호트 학습 모듈이라는 두 가지 핵심 모듈로 구성됩니다.

사전 컨텍스트 큐 합성 모듈에서,NeuralCohort 모델은 계층적 방문 엔진을 처음으로 도입했습니다.ICD-9의 트리 시스템과 같은 복잡한 진단 코드 온톨로지 구조를 처리할 수 있습니다. 경로 표현과 의미적 유사도 측정을 결합하여, 이 모듈은 당뇨병 및 합병증의 다양한 코드와 같이 계층적 연관성을 가진 의학 용어를 효과적으로 구분할 수 있습니다. 동시에, 이 모델은 진단, 약물 및 검사 코드의 계층적 특징을 통합할 수 있습니다.그리고 역방향 시간주의 메커니즘(Reverse Time Attention)을 사용합니다.과거 방문 정보는 현재 방문을 기준점으로 동적으로 집계되어 방문 순서의 시간적 종속성을 파악합니다.
환자 유사도에 대한 기존 수동 주석 방식의 비효율성을 해결하기 위해, 본 모듈은 PseudoSim Training 과제를 혁신적으로 도입하고, 진단 코드를 사용하여 의사 레이블을 생성하며, 상호 정보 신경망 추정을 통해 환자 표현을 최적화했습니다. 마지막으로, 젠슨-섀넌 발산과 스튜던트 t 분포를 활용하여 코호트 도출을 수행하여, 후속 분석을 위한 구조화된 환자 그룹화 체계를 제공했습니다.
듀얼 스케일 대기열 학습 모듈은 대기열 내의 공통적인 특징과 서로 다른 대기열 간의 다양한 특징을 찾아내는 데 전념합니다..로컬 코호트 모델링에서 모델은 각 코호트를 그래프 구조로 취급하고 환자 표현의 코사인 유사도를 이용하여 인접 행렬을 구성합니다. 그래프 신경망은 노드 정보를 계층별로 집계하여 동일 코호트 내 환자들의 상호작용 패턴을 파악합니다.
글로벌 코호트 모델링은 인코더-디코더 아키텍처를 사용하여 재구성 손실을 통해 코호트의 의미적 무결성을 유지하는 동시에, 대비 손실을 결합하여 다양한 코호트의 기능 분리를 강화하고 코호트 간 구별성을 보장합니다.
마지막으로, 백본 네트워크의 초기 표현, 대기열 내의 로컬 표현, 그리고 대기열 간의 전역 표현은 교차 도메인 어텐션 메커니즘을 통해 융합되어 다단계 대기열 정보를 포함하는 최종 표현을 형성합니다. 모델 학습 과정에서 손실 함수는 유사 유사성 학습 손실, 대기열 유도 손실, 대기열 비교 손실, 그리고 하위 작업 손실을 통합하고, 가중치 매개변수 조정을 통해 다목적 최적화를 달성합니다. 이를 통해 NeuralCohort는 개별 환자 특성을 세밀하게 학습할 뿐만 아니라 임상적으로 해석 가능한 대기열 그룹 패턴을 포착하여 의료 데이터 분석 작업에 대한 정확성과 해석 가능성을 결합한 솔루션을 제공하며, 과학적이고 정확한 의료 의사 결정을 촉진할 것으로 기대됩니다.
다차원 실험 검증: NeuralCohort 모델 정확도가 16.3% 증가하여 환자 관리 의사 결정이 크게 향상되었습니다.
연구팀은 NeuralCohort가 전자 건강 기록(EHR) 표현 학습에 미치는 최적화 효과를 평가하기 위해 포괄적인 실험 프레임워크를 구축했습니다.
연구진은 의료 데이터 분석 분야의 대표적 모델인 Med2Vec, MiME, ClinicalBERT를 벤치마크 프레임워크로 선정했습니다. 동시에, 효과적인 비교를 위해 KNN, K-Means 등 기존 코호트 통합 알고리즘 7개를 비교 방법으로 실험에 포함했습니다.
실험 설계는 두 가지 주요 의료 예측 과제, 즉 병원 재입원 예측과 장기 입원(LOS) 예측에 초점을 맞춥니다.이 두 가지 과제는 의료 자원 관리 및 환자 진료의 질 향상에 매우 중요합니다. 연구진은 모델의 성능을 종합적으로 평가하기 위해 널리 인정받는 세 가지 평가 지표인 AUPRC, AUROC, 그리고 정확도를 활용하고, 안정적이고 신뢰할 수 있는 통계적 결과를 얻기 위해 다섯 차례의 반복 실험을 수행하여 모델의 일반화 능력을 체계적으로 평가했습니다.
전체 실험 결과는 다음 표에 나와 있습니다. NeuralCohort는 MIMIC-III 데이터셋의 두 가지 예측 작업에서 우수한 성능을 보였습니다. 기존 기준 모델과 비교했을 때,AUPRC 지표는 최대 8.0%만큼 개선되었고, AUROC 지표는 8.1%만큼 개선되었으며, 정확도는 16.3%만큼 상당히 높아졌습니다.
추가 분석 결과, 기준 모델은 일관된 성능 향상을 달성하지 못한 것으로 나타났습니다.가장 큰 이유는 세분화된 대기열 정보를 모델링하기에 부족하기 때문입니다.예를 들어, KNN과 K-Means 알고리즘은 유사성을 고려하는 특징 공간에서 작동하지 않고, DGLoS로 구성된 전역 그래프는 거칠고(coarse-grained), GRASP는 코호트 간 모델링에만 집중하며, DEC, DEKM, IDC는 의학적 의미론을 효과적으로 모델링할 수 없습니다. 이러한 결함으로 인해 기준 모델은 환자 유사성을 시뮬레이션하는 데 성능이 저하되고, 심지어 백본 모델에 노이즈를 발생시켜 전체 성능을 저하시킬 수 있습니다.


NeuralCohort는 기존 의료 코호트 구축 방법과 비교하여 상당한 이점을 제공합니다. 기존 방법은 일반적으로 성별, 연령, 당뇨병 진단, 고혈압 진단과 같은 제한된 특성을 기반으로 코호트를 구분합니다. 이 방법으로 생성된 코호트는 비교적 조대하여 코호트 패턴 마이닝의 요구를 충족하기 어렵고, 서로 다른 환자를 동일한 코호트로 그룹화하기 쉬워 노이즈가 발생합니다. 이와는 대조적으로 NeuralCohort는 코호트 내 및 코호트 간 환자의 순차적 방문 수준 표현을 사용하여 세밀한 수준에서 작동합니다.이를 통해 MIMIC-III 데이터 세트의 코호트에 속한 환자의 임상적 유사성이 23.5%만큼 향상되었습니다.

MIMIC-III 데이터 세트에서 기존 코호트와 NeuralCohort 비교
해석 가능성 분석은 NeuralCohort의 장점을 더욱 명확히 보여줍니다. Calinski-Harabasz 점수는 NeuralCohort로 생성된 코호트가 K-Means와 같은 방법에 비해 장기 LOS 작업에서 CH 점수를 18.7%~25.4% 향상시킴을 보여줍니다. t-SNE 기반 시각적 분석 결과, 기준 모델에서 직접 출력된 표현은 상당한 군집 중첩을 보이는 반면, 아래 그림과 같이 NeuralCohort는 코호트 정보를 주입하는 것으로 나타났습니다.41.2%는 8개 표적 코호트의 구별을 개선했으며, 그 중에서도 심혈관 질환 코호트와 만성 대사 질환 코호트와 같은 임상적으로 전형적인 그룹의 특징적 경계가 특히 명확했습니다.

임상적으로는NeuralCohort는 임상 결과와 직접적으로 연관되는 코호트별 특성을 식별하여 환자 관리를 크게 개선합니다.예를 들어, t-검정을 통해 확인된 4개 코호트의 고유한 특성은 심혈관 질환, 만성 대사 및 혈액 질환, 신장 및 비뇨기 문제, 복잡한 만성 및 급성 질환과 같은 다양한 유형의 환자 집단을 포괄합니다.
이러한 특성을 파악하면 병원에서는 원격 측정 병상, 심장학 상담, 당뇨병 교육자, 신장 팀 등의 자원을 보다 구체적으로 할당하고 이뇨제의 적절한 사용, 인슐린 적정, 영상 검사 일정 조정 등의 해당 개입 조치를 수립할 수 있으므로 병원의 효율성과 환자 치료의 질이 크게 향상됩니다.
산업-연구 협력, 양방향 EHR 혁신 생태계
전자 건강 기록(EHR) 표현 학습 및 코호트 분석 분야에서 전 세계 학계와 기업 커뮤니티는 최첨단 기술 혁신과 임상 실무 혁신을 통해 의료 데이터의 가치를 심층적으로 공개하고 정밀 의학 개발에 새로운 활력을 불어넣고 있습니다.
샤먼 대학의 왕샤오리 교수 팀이 제안한 MHGRL 모델은 다중 모드 이질 그래프를 구성하여 EHR의 내부 구조와 외부 의학 지식을 통합합니다.MIMIC-III와 같은 데이터 세트에서는 질병 예측 정확도가 크게 향상되었습니다.이 모델이 채택한 역시간 주의 메커니즘은 현재 방문과 과거 기록 간의 상관관계를 강화하는데, 이는 기술적 논리에서 NeuralCohort의 사전 컨텍스트 대기열 합성 모듈과 유사하며, 둘 다 시계열 정보 모델링에 대한 강조점을 반영합니다.
코넬대 팀이 구축한 GEMS 모델은 800만 개의 실제 EHR 데이터를 기반으로 합니다.이 연구는 임상 의사 결정에 코호트 분석을 직접 적용하는 것을 보여주었습니다. 이 연구는 그래프 신경망 인코더를 통해 진행성 폐암 환자의 104차원 특징 벡터를 수집하고, 클러스터링 모듈과 결합하여 유의미한 생존율 차이를 보이는 세 가지 하위 표현형을 식별했습니다. 전체 생존율 예측에 대한 C-지수는 0.665에 도달하여 기존 기준 모델을 훨씬 뛰어넘었습니다. 이 기술의 기술적 경로는 방법론 측면에서 NeuralCohort의 이중 규모 코호트 학습 모듈과 매우 일치하며, 두 모듈 모두 복잡한 데이터에서 임상적으로 유의미한 코호트 특징을 추출하는 데 중점을 둡니다.
기업계 또한 놀라운 성과를 거두었으며, 학계의 최첨단 기술을 실용적인 임상 적용 도구로 전환하고 있습니다. 예를 들어, 영국 국민보건서비스(NHS)와 히포크라테스 AI(Hippocratic AI)가 협력하는 PATH 프로그램은35%는 대화형 상담원을 통한 자동화된 의료 기록 수집 및 추천 검증을 통해 전문의 진료 대기 기간을 단축할 수 있습니다.이 EHR 기반 지능형 분류 시스템은 고위험 환자군을 실시간으로 식별할 수 있는 코호트 분석 모듈을 내장하고 있습니다. 예를 들어, 자연어 처리를 통해 임상 기록에서 "급성 악화를 동반한 만성 폐쇄성 폐질환"과 같은 복잡한 특징을 추출하고 환자의 우선순위를 동적으로 조정할 수 있습니다.
요약하자면, 학계는 알고리즘 혁신을 통해 더욱 정확한 코호트 모델을 구축하여 의료 데이터 마이닝의 깊이와 폭을 지속적으로 확장해 왔습니다. 기업계는 기술 혁신 역량을 활용하여 이러한 최첨단 기술을 임상 도구로 전환하고 구현하여 의료 서비스의 효율성과 질을 향상시켜 왔습니다. 이러한 양방향 혁신 생태계는 의사들이 더욱 정확한 진단 지원을 받을 수 있도록 지원할 뿐만 아니라, 집단적 특성에서 개별 위험에 대한 조기 경고 신호를 발견하고, 질병 치료에서 건강 관리로 의료 서비스 모델을 전환하며, 글로벌 의료 시스템의 최적화 및 고도화를 위한 강력한 지원을 제공할 것으로 기대됩니다.
참고문헌:
1.https://cdmc.xmu.edu.cn/info/1002/3683.htm
2.https://mp.weixin.qq.com/s/Z1Wl0FIPHpwrvnNDCE5KwA
3.https://mp.weixin.qq.com/s/neCUoGm75mTPwjvlND5_sg