Nature 저널에 게재되었습니다! 화중과학기술대학은 여러 센터와 전문 분야에 걸쳐 패혈성 쇼크의 사망 위험을 정확하게 예측하기 위해 융합 전략 AI 모델을 제안했습니다.

감염성 쇼크(패혈성 쇼크라고도 함)는 패혈증으로 인해 발생하는 심각한 순환 장애 및 세포 대사 장애 증후군을 말하며, 임상적으로는 패혈증 발병의 "말기 단계"로 볼 수 있습니다. 패혈성 쇼크는 사망률이 매우 높으며 현재 중환자실에서 가장 치명적인 질병 중 하나입니다.영국 국립 중환자 치료 데이터베이스를 기반으로 한 연구 보고서에 따르면, 패혈성 쇼크 환자의 입원 사망률은 최대 55.5%에 달할 수 있습니다.
사망률이 높은 이 진행성 질환에 직면하여, 패혈성 쇼크에 대한 임상적 강조점은 "시간이 곧 생명"이며, 사망률을 낮추기 위해 조기 발견, 조기 개입, 조기 치료가 옹호됩니다. 하지만,패혈성 쇼크 환자의 상태가 복잡하고 임상 의료 데이터가 부족하기 때문에 패혈성 쇼크 환자의 진행 상황을 조기에 경고하는 것은 매우 어렵습니다.이는 패혈증이 패혈성 쇼크로 악화되는 것을 효과적으로 중재하는 데 있어서 주요 병목 현상이기도 합니다.
현재 중환자 치료 의학에서 정보기술이 급속도로 발전하면서 인공지능과 중환자 치료 의학의 융합으로 패혈증의 조기 경보가 어렵지 않게 되었지만, 패혈성 쇼크에 대한 연구는 뒤처져 있습니다. 대부분의 연구는 표본 크기가 작고, 단일 머신 러닝 알고리즘에 의존하며, 다중 센터 검증을 통과하지 못했기 때문에 패혈성 쇼크 환자의 조기 위험 예측에 대한 임상 실무로 적용하기 어렵습니다.
이러한 점을 고려하여, 화중과학기술대학교 통지의과대학에 소속된 통지병원의 예칭 교수와 의료건강관리학원의 우홍 교수는 TOPSIS(이상적 솔루션과의 유사성을 통한 순서 선호도 기술)를 기반으로 분류 융합(TCF) 모델을 개척하여 ICU에서 패혈성 쇼크를 앓은 환자의 28일 이내 사망 위험을 예측했습니다.이 모델은 7개의 머신 러닝 모델을 통합하고, 전문가 간, 다중 센터 검증에서 높은 안정성과 정확성을 보입니다.이 도구는 임상의에게 패혈성 쇼크로 인한 사망 위험을 조기에 경고할 수 있는 신뢰할 수 있는 보조 도구를 제공합니다.
해당 연구 결과는 네이처의 자회사 저널인 npj Digital Medicine에 "다기관 후향적 연구에서의 패혈성 쇼크에 대한 인공지능 기반 다분야 사망률 예측 모델"이라는 제목으로 게재되었습니다.
연구 하이라이트:
* 본 연구는 임상 시나리오에서 소규모 표본 집단과 단일 분류 모델의 성능 저하 문제를 극복하기 위해 다중 기본 분류 모델을 기반으로 높은 일반화 능력과 견고성을 갖춘 융합 모델을 구축하기 위한 효율적인 융합 전략을 채택했습니다.
* 이번 연구 결과는 패혈성 쇼크 환자의 조기 사망 위험 예측의 어려움을 획기적으로 개선해 임상의들이 환자 상태의 진행을 조기에 면밀히 모니터링하고 보다 적극적인 치료 조치를 취할 수 있도록 돕는 효율적이고 안정적이며 신뢰할 수 있는 임상 의사결정 도구를 제공했다.

서류 주소:
https://go.hyper.ai/faMLL
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 광범위한 데이터, 정확한 처리
폭넓은 적용성을 갖는 패혈성 쇼크 예측 모델을 구축하기 위해,연구팀은 2003년 2월부터 2023년 11월까지 3개 병원의 중환자실 패혈성 쇼크 환자 4,872명의 임상 데이터를 통합했습니다.참여자들의 배경은 복잡하고 다양하기 때문에 연구팀은 여러 센터와 여러 전문 분야의 검증을 실시하여 모델의 타당성과 적용 가능성을 입증하는 데 도움이 될 것입니다. 다음 그림과 같이:

구체적으로,1차 조사에는 4,189명의 참가자가 포함되었습니다.이 중 일반 중환자실 환자는 3,451명(양성 721명, 음성 2,730명)이었다. 소아 중환자실(코호트 1-1) 환자 357명(52명 양성) 그리고 호흡기 중환자실(1-2 코호트)에 있는 환자 381명(60명 양성).
* 양성 결과는 ICU 입원 후 28일 이내에 전 사망을 경험한 참가자를 의미하며, 전 사망을 경험하지 않은 참가자는 음성 결과로 표기합니다(이하 동일).
이 중 일반 ICU 환자 데이터 세트를 주요 연구 모집단으로 사용하여 모델 구축 및 내부 검증을 수행했습니다.훈련 데이터와 검증 데이터는 8:2로 나뉘었으며, 각각 2,760명의 피험자(577명 양성)와 691명의 피험자(144명 양성)였습니다.소아 중환자실 환자와 호흡기 중환자실 환자 데이터 세트를 사용하여 다양한 전문 중환자실에서 모델의 적용 가능성과 안정성을 추가로 평가했습니다.
2차 코호트와 3차 코호트에는 서로 다른 ICU에서 온 패혈성 쇼크 환자가 포함되었으며, 각각 422명(양성 100명, 음성 322명)과 261명(양성 75명, 음성 186명)의 참여자가 있었습니다.데이터 세트의 이 두 부분은 주로 외부 검증을 통해 다양한 센터에서 일반화 능력과 효과성을 평가하는 데 사용됩니다.
또한 정확한 실험 결과를 얻기 위해서는연구팀은 93개의 공통적인 임상적 특징을 추출했습니다.인구통계학적 정보, 질병 및 치료 이력, 생체징후 정보 등을 포함하여 최종적으로 실험을 위해 34개 항목으로 최적화되었습니다.
구체적으로,데이터 전처리는 5가지 부분으로 구성됩니다.첫 번째 단계에서 연구팀은 먼저 결측률을 계산하고 30%보다 결측률이 높은 23개 변수를 삭제했습니다. 두 번째 단계에서는 베르누이 분산 공식에 따라 부울 특성의 분산을 계산하고, 일관성이 90%를 초과하는 이산 확률 변수를 다시 제거했습니다. 3단계에서는 결측값 보간법(로지스틱 회귀 다중 보간법)을 사용하여 61개 변수에 대해 추가 최적화를 수행했습니다. 네 번째 단계에서는 높은 상관관계 특징을 다시 선별하였고(피어슨 상관 계수 ≥ 0.7), 이때 남은 변수는 50개였습니다. 다음 그림과 같이:

다섯 번째 단계에서 연구자들은 정보 엔트로피에 따라 변수를 분류(높음에서 낮음으로)한 후, 나이, 수술 이력, 체온, 이완기 혈압과 같은 중요한 요소를 포함하여 실험을 위한 34개의 핵심 변수를 최종적으로 선택했습니다.

참가자의 개인 정보를 보호하기 위해 모든 데이터는 분석 전에 익명화되었습니다.
모델 아키텍처: 퓨전 모델, 정확한 예측
TCF 모델 연구는 주로 세 단계로 나뉜다.첫 번째 단계는 패혈성 쇼크 환자의 입원 데이터를 사용하여 7개의 하위 모델을 구축하는 것이며, 각 하위 모델은 6개의 평가 지표에 대한 결과를 생성합니다. 두 번째 단계는 융합 전략에 따라 하위 모델을 융합 모델로 통합하고 해당 모델이 다른 모델보다 우수한지 검증하는 것입니다. 세 번째 단계에서는 다양한 데이터 세트에서 테스트를 수행하여 모델의 성능을 검증하고 모델에 대한 해석 가능성 분석을 수행합니다(실험 결과 섹션에서 설명).

구체적으로,첫 번째 단계에서 연구팀은 먼저 특징 처리된 공통 ICU 데이터 세트를 사용하여 7개의 하위 모델을 훈련하고 테스트했습니다.클래스 불균형의 부정적 영향을 완화하기 위해 1:1 규칙에 따라 학습 세트에 합성 소수 집단 과다 샘플링 기술(SMOTE)을 적용했습니다. 최소-최대 정규화 후, 5겹 교차 검증과 랜덤 검색을 통해 최적의 매개변수 조합을 결정하고, 학습 세트에서 결정 트리(DT), 랜덤 포레스트(RF), XGBoost(XGB), LightGBM(LGBM), 나이브 베이즈(NB), 지원 벡터 머신(SVM), 그래디언트 부스팅 결정 트리(GBDT)의 7개 하위 모델을 학습했습니다.
마지막으로 연구팀은 내부 검증 데이터를 사용하여 테스트 결과를 검증했습니다.모델의 성능은 6가지 평가 지표를 사용하여 평가됩니다.이러한 지표는 ROC 곡선 아래의 면적(AUC), F1 점수, 정밀도(PRE), 정확도(ACC), 민감도(SEN) 및 특이도(SPE)입니다.
두 번째 단계에서 연구팀은 각기 장단점이 있는 7개의 하위 모델을 통합했습니다.TOPSIS 기반 분류 융합 모델 TCF는 7개 모델의 평가 결과를 결합하여 패혈성 쇼크 진단을 위한 포괄적인 예측 결과를 제공하도록 설계되었습니다. 하위 모델의 가중치는 TOPSIS-score에 의해 계산되었으며, 가중 예측 확률은 TCF의 예측 확률이었습니다. TCF의 분류 결과는 0.5를 임계값으로 하여 도출되었습니다.
구체적인 TCF 모델 융합 알고리즘은 다음과 같습니다.

통계 분석의 관점에서 연속형 특성의 경우 중앙값, 상위 사분위수, 하위 사분위수 통계가 제공됩니다. 개별 기능의 경우 각 범주의 비율이 보고됩니다.이 연구에서 가장 작은 데이터 세트는 코호트 3이며, 중심극한정리에 따르면 연속형 특성의 평균 분포는 정규분포로 간주될 수 있습니다.
그 다음에,이 연구에서는 두 데이터 집합 간 특성의 동질성을 확인하기 위해 레벤의 검정을 사용했습니다.카이제곱 검정은 다른 데이터와 내부 검증 세트 간의 이산적 특성 차이를 비교하는 데 사용되었고, 연속적 특성의 차이는 독립 표본 t-검정 또는 웰치 t-검정을 사용하여 검정되었으며, 1,000개의 부트스트랩 표본은 평가 지표의 95% 신뢰 구간을 계산하는 데 사용되었습니다.
연구팀은 모델의 추론 과정을 더 깊이 이해하기 위해 SHAP 특징 중요도 히트맵을 그려 특징 중요도를 시각화했습니다. 다음 그림에서 볼 수 있듯이 AUC 성능이 가장 좋은 GBDT 모델을 예로 들어 보겠습니다.

특징 중요도 순위는 임상 예측 모델의 투명성과 신뢰성을 향상시킬 뿐만 아니라, 의료 실무에 귀중한 참고 자료를 제공합니다. 이런 식으로,이 모델은 의사들의 모델 투명성에 대한 요구를 충족할 뿐만 아니라, 임상적 순이익을 정량화합니다.이 모델은 임상적 해석 가능성과 실용성을 모두 갖추고 있어 임상 실무에 이 모델을 적용할 수 있는 기반을 마련했습니다.
실험 결과: 다차원 검증, 신뢰성 있고 사용 용이성
연구팀은 융합 모델(TCF)의 성능을 검증하기 위해 먼저 이를 하위 모델과 비교했습니다. 결과는 아래 그림과 같습니다.

TCF는 내부 검증 세트의 포괄적인 평가 지표 모두에서 하위 모델보다 우수한 성과를 보였습니다.AUC는 0.733이고 F1 점수는 0.458입니다. 또한 ACC는 0.686, PRE는 0.358로 대부분의 하위 모델보다 높습니다. 이는 뛰어난 분류 능력을 보여줍니다.

SEN과 SPE에 대한 TCF 모델 점수는 각각 0.640과 0.700인 최고 성능만큼 좋지는 않지만,하지만 전체 하위 모델의 편차를 통해 효과를 식별할 수 있으므로 전반적으로 가장 좋은 성능을 달성할 수 있습니다.아래 그림과 같습니다.


검정 곡선과 결정 곡선 분석(DCA) 곡선은 TCF 모델의 예측 결과가 실제 결과와 일치함을 보여줍니다.첫째, TCF 모델의 검정 곡선이 대각선에 가장 가까워 모든 모델 중 가장 좋은 검정 성능을 가지고 있음을 나타낸다. 두 번째로, TCF 모델의 곡선은 대부분 임계 확률에서 항상 "전체" 및 "없음" 전략보다 우수하며, 특히 0.1~0.5의 확률 범위에서 더 높은 순수익률을 보여줍니다. 이는 TCF 모델이 일정 범위 내에서 임상 적용 가치가 있을 가능성이 있으며 임상의가 더 유리한 결정을 내리는 데 도움이 될 수 있음을 시사합니다.
연구팀은 TCF 모델의 예측 성능과 다양한 데이터 세트 간의 이질성을 더욱 정확하게 입증할 수 있는 다기관 검증을 수행했습니다. 다음 그림과 같이:

대부분의 연구에서 다중 센터 예측 효과가 훈련 세트 및 내부 검증 세트보다 약간 낮은 반면, 이 연구에서는 코호트 1-2(호흡기 중환자 데이터 세트)의 AUC(0.662)가 약간 감소한 것을 제외하고는코호트 1-1(소아 중환자실 환자 데이터 세트), 코호트 2, 코호트 3의 AUC가 모두 개선되었습니다.각각 0.808, 0.784, 0.786입니다.
또한, 다기관 샘플 수가 제한되어 있기 때문에연구팀은 예측을 위해 4개의 외부 검증 데이터 세트(287건의 양성 사례를 포함한 1,421명의 환자 데이터)를 특별히 결합했습니다.AUC는 0.7705로, 이는 TCF 모델이 패혈성 쇼크에 대한 위험 요소가 낮은 환자를 효과적으로 구별할 수 있으며, 보정 능력이 우수함을 나타냅니다.

그 중 a는 AUC 상자 그림입니다. b는 ACC 상자 그림입니다. c는 SPE 상자 그림입니다. d는 F1 점수 상자 그림입니다. e는 PRE 상자 그림입니다. 그리고 f는 SEN 상자 그림입니다. 회색 점선은 내부 검증 세트의 결과를 나타내며, 다른 데이터 세트의 평가 점수는 진한 회색 영역에 속해 있어 내부 검증 세트에 비해 성능이 저하되었음을 나타냅니다.
요약하자면, TCF 모델은 내부 데이터 세트와 외부 검증 세트 모두에서 일관되고 좋은 성능을 달성했으며, 패혈성 쇼크 환자의 28일 이내 사망 위험을 예측하는 데 있어 단일 모델보다 우수한 성능을 보였습니다.이 모델은 ICU 임상의에게 신뢰성 있고 사용하기 쉬운 예측 도구를 제공하며, 특히 환자 상태가 악화되는 초기 단계에서 유용합니다. 이를 통해 의사는 다양한 환자에게 효과적이고 개인화된 치료 개입을 제공하고 환자의 예후를 개선하는 데 큰 도움을 줄 수 있습니다.
인공지능, 패혈증·패혈성 쇼크 치료에 큰 역할
과학기술의 끊임없는 발전에 따라 인공지능과 중환자 치료의 교차 통합은 오랫동안 관련 연구자들에게 큰 관심 분야가 되어 왔습니다. 이 연구는 의심할 여지 없이 선구적 가치를 지닌 탐구입니다. 앞서 언급했듯이 패혈증/패혈성 쇼크는 사망률과 이환율이 높은 전 세계적인 공중보건 위기이며, 환자의 생존율을 높이기 위해서는 조기 발견과 개입이 시급히 필요합니다.
과거에도 패혈증 조기 경보 모델에 대한 연구가 활발히 진행되었으며, 많은 연구실에서 관련 연구 결과를 내놓았습니다.
예를 들어, Armando D Bedoya 등이 발표한 "패혈증 조기 발견을 위한 머신러닝: 내부적, 시간적 검증 연구"라는 제목의 연구가 있습니다. 미국 듀크 대학교 출신.본 논문에서는 딥러닝(다중 출력 가우시안 프로세스와 순환 신경망)을 기반으로 한 예측 모델 MGP-RNN을 소개하고 검증한다.랜덤 포레스트, 콕스 회귀, 페널티 로지스틱 회귀 등 세 가지 머신 러닝 방법과 세 가지 임상 점수와 비교했을 때, 이 모델은 모든 지표에서 다른 모델과 임상 점수보다 우수한 성과를 보였으며, 패혈증을 5시간 전에 감지할 수 있었습니다.
서류 주소:
https://pmc.ncbi.nlm.nih.gov/articles/PMC7382639
또한, Dascena라는 캘리포니아 회사의 팀도 회고적 연구 방법을 사용한 연구에서 통찰력을 제공했습니다.MIMIC II 임상 데이터베이스에 있는 32,000명의 환자의 데이터를 사용하여 9가지 일반적인 생체 신호 측정값을 연관시켜 InSight라는 패혈증 조기 경보 알고리즘을 개발했습니다.연구 결과에 따르면, 이 알고리즘은 지속적인 전신 염증 반응 증후군(SIRS)이 시작되기 3시간 전에 패혈증을 예측하는 데 민감도가 0.90, 특이도가 0.81로 기존 바이오마커 검출 방법보다 우수한 것으로 나타났습니다. 해당 연구는 "패혈증 조기 발견을 위한 계산적 접근법"이라는 제목으로 출판되었습니다.
서류 주소:
https://www.sciencedirect.com/science/article/abs/pii/S0010482516301123?via%3Dihub
인공지능과 중환자 치료의 통합으로 패혈증에 대한 조기 경고가 더 이상 어렵지 않게 되었으며, 이 연구는 패혈증이 위험한 단계로 발전할 때 적절한 경고가 없다는 빈틈을 메우는 데 의심의 여지가 없으며, 더 큰 의학적 가치를 지닌 탐구입니다. 물론, 더 중요한 것은 이 연구에서 언급한 융합 전략인데, 이는 하위 모델의 민감도와 특이도의 장점을 균형 있게 조정하여 전체 모델의 전반적인 성능을 향상시킵니다. 이는 앞으로 다중 모델 통합을 통해 관련 문제를 해결하는 길을 열어 주고, 유사한 방법을 통해 의료 시나리오의 실질적인 어려움을 해결하기 위한 더 많은 연구에 영감을 줍니다.