HyperAI초신경

후베이 마청인민병원은 301병원에서 관상동맥심장질환을 앓고 있는 451명의 노인 환자로부터 데이터를 수집하여 1년 이내 환자의 사망률을 정확하게 예측하는 머신러닝 모델을 출시했습니다.

特色图像

2017년 당뇨병 조사에 따르면, 우리나라의 당뇨병을 앓고 있는 노인의 수는 7,813만 명에 달했습니다. 대규모 인구 연구를 종합해 보면, 비정상적인 포도당 대사와 심혈관 질환 사이에는 높은 수준의 '공동 질환' 관계가 있는 것으로 밝혀졌습니다. 즉, 당뇨병 환자는 관상 동맥 심장 질환과 같은 합병증을 앓는 경우가 많고, 후자는 당뇨병 환자의 주요 사망 원인이 되었습니다. 약 75%의 당뇨병 환자가 관상 동맥 심장 질환으로 사망했습니다. 하지만,현재 관상동맥 심장질환과 당뇨병 또는 포도당 내성 장애가 있는 환자의 생존 위험 요인에 대한 연구는 몇 가지에 불과합니다.

|비고:포도당 내성 장애(IGT)는 정상 혈당에서 당뇨병으로 전환되는 비정상적인 포도당 대사 상태입니다. 이는 당뇨병 전단계이며, 당뇨병(DM)으로 발전할 수 있습니다.

이런 상황을 타개하기 위해 중국 후베이성 마청시 인민병원의 연구진은 로지스틱 회귀 모델(LR)과 세 가지 머신 러닝 모델을 비교하여 당뇨병이나 포도당 내성 장애가 동반된 관상동맥 심장병을 앓는 중국 노인 환자의 1년 사망률을 성공적으로 예측했습니다. 이를 통해 의료계가 단기 사망 위험이 있는 환자를 신속하게 식별하고 조기에 경고하고 치료를 제공할 수 있었습니다.

이 연구는 "관상동맥질환과 당내성 장애 또는 당뇨병이 동반된 중국 노인 환자의 1년 사망률을 예측하기 위한 머신러닝 기반 모델"이라는 제목으로 심혈관 당뇨병학 저널에 게재되었습니다.

그림 1: 본 연구 결과는 Cardiovascular Diabetology에 게재되었습니다.

서류 주소:

https://cardiab.biomedcentral.com/articles/10.1186/s12933-023-01854-z

실험 절차 

데이터셋: 301개 병원의 관상동맥 심장질환을 앓고 있는 451명의 노인 환자 데이터 

본 연구는 2007년 10월부터 2011년 7월까지 PLA General Hospital 노인심장학과에 입원한 974명의 노인성 심장질환 환자를 분석했습니다.연구자들은 두 가지 기준에 따라 추가로 선별했습니다.그것들은 다음과 같습니다:

1. 60세 이상

2. 포도당 내성 장애(IGT) 또는 당뇨병(DM)을 앓고 있는 경우.

최종 데이터 세트에는 451명의 환자가 포함되어 있으며, 이들은 7:3의 비율로 훈련 세트(n = 308)와 테스트 세트(n = 143)로 무작위로 나뉘었습니다.훈련 세트는 로지스틱 회귀 모델과 세 가지 머신 러닝 모델을 훈련하고 최적화하는 데 사용되고, 테스트 세트는 모델 예측 성능을 테스트하는 데 사용됩니다. 데이터 세트 검토 과정은 다음과 같습니다.

그림 2: 환자 선택 및 연구 설계를 개략적으로 나타낸 흐름도

모델 개발: 수평적 비교를 위한 4가지 주요 모델 선택 

이 연구에서 연구진은 로지스틱 회귀 모델과 세 가지 머신 러닝 모델을 개발했습니다.예측 모델은 그래디언트 부스팅 머신 모델(GBM), 랜덤 포레스트 모델(RF), 결정 트리 모델(DT)에 대해 확립되었습니다.예측 효과는 Brier Score, AUC(곡선 아래 면적), 검정 곡선, 결정 곡선 등 여러 지표를 기반으로 평가됩니다.

브라이어 점수:알고리즘이 예측한 확률과 실제 결과의 차이를 측정하는 방법입니다. 값의 범위는 0~1이며, 점수가 높을수록 예측력이 떨어지고 보정이 낮음을 나타냅니다.

그림 3: Brill 점수 계산 공식

AUC:곡선 아래의 면적을 말합니다. 통계 및 머신 러닝에서 AUC는 종종 이진 분류 모델의 성능을 평가하는 데 사용됩니다. 값의 범위는 0~1입니다. 값이 1에 가까울수록 모델 성능이 우수합니다. 값이 0.5에 가까울수록 모델의 예측 능력이 약해집니다.

 3가지 머신 러닝 모델을 위한 기능 스크리닝 및 매개변수 튜닝 

동시에 연구진은 개발된 머신 러닝 모델에 대한 특징 스크리닝과 매개변수 튜닝을 수행했습니다.먼저, 그들은 10배 교차 검증과 결합된 LASSO(최소 절대 수축 및 선택 연산자) 알고리즘을 사용하여 모델 입력으로 1년 사망률과 유의미하게 상관관계가 있는 7가지 특징을 걸러냈습니다. 이러한 7가지 특징은 헤모글로빈, HDL-C, 알부민, 혈중 크레아티닌, NT-proBNP, CHF, 스타틴이었습니다. 그런 다음 5겹 교차 검증과 부트스트랩을 사용하여 무작위 하이퍼 매개변수 검색을 수행하여 최상의 매개변수 조합을 찾고 곡선 아래 면적(AUC)을 얻었습니다.

그림 4: 하이퍼파라미터 튜닝 프로세스

에이:최소 절대 수축 및 선택 연산자(LASSO) 계수 곡선

비:최상의 매개변수 조합

기음:임상적 특성 간의 상관계수

그림 4에서 모든 상관 계수는 0.80보다 낮아 심각한 공선성이 없음을 나타냅니다.위의 7가지 임상적 특징은 로지스틱 회귀 모델과 3가지 머신 러닝 예측 모델을 훈련하는 데 사용되었습니다.모델 학습 및 최적화 후, 각 모델에 대한 최적의 하이퍼파라미터는 다음 표에 나와 있습니다.

표 1: 각 모델에 대한 최적의 하이퍼 매개변수

실험 결과 

각 모델의 전반적인 성능에서:

* 로지스틱 회귀 모형(LR)의 Brier 점수는 0.116입니다.

* GBM(Gradient Boosting Machine) 모델의 Brier 점수는 0.114입니다.

* 의사결정트리모델(DT)의 Brier 점수는 0.143입니다.

* Random Forest 모델(RF)의 Brier 점수는 0.126입니다.

다음 그림은 각 모델의 분석 결과를 보여줍니다.

그림 5: 각 모델의 AUC, 검정 곡선, 결정 곡선 및 SHAP 값

디:각 모델의 전반적인 성능

이자형:각 모델에 대한 교정 곡선

에프:각 모델에 대한 결정 곡선

G:SHAP 값 히트맵

시간:SHAP 기반 기능 중요도 분석

그림 5에 따르면 다음과 같은 결론을 도출할 수 있습니다.

1. LR, GBM, DT 및 RF 모델의 AUC는 각각 0.827, 0.836, 0.760 및 0.829입니다.

2. 검정 곡선은 모든 모델이 좋은 검정 효과를 가지고 있음을 보여줍니다. 그 중 GBM 모델이 가장 효과가 좋다.

3. 결정곡선 분석 결과, GBM 모델과 LR 모델 모두 임상적으로 실용성이 좋은 것으로 나타났습니다.

4. 연구진은 GBM 모델을 기반으로 전체 인구에서 중요한 임상적 특징의 중요성을 추가로 분석했습니다. 개별 SHAP 값과 평균 SHAP 값을 모두 분석한 결과, 1년 사망률과 관련된 상위 3가지 특성은 NT-proBNP, 알부민, 스타틴인 것으로 나타났습니다.

| 모양: 셰일리 첨가 설명, 특집 기여. SHAP 값을 분석함으로써 연구자들은 예측 결과에 대한 설명을 얻고 각 특징이 모델의 예측에 어떻게 영향을 미치는지 이해할 수 있으며, 이를 통해 모델의 동작을 더 잘 이해하고 설명할 수 있습니다.

요약하자면, 연구자들은 이전 연구의 모델이 높은 예측 성능을 보였지만 변수가 너무 많아 임상 적용에는 적합하지 않다고 제안했습니다. 이 연구에서 연구자들은 7가지 특징을 성공적으로 활용하여 1년 사망률을 예측하는 모델을 개발했습니다.결과에 따르면 GBM 모델은 최대 0.836의 AUC와 0.116의 Brier 점수를 보였으며, 전반적인 예측 성능이 가장 좋았습니다.

임상 적용을 더욱 용이하게 하기 위해 연구진은 의사가 환자의 매개변수만 입력하면 1년 이내 사망 확률을 예측할 수 있는 온라인 애플리케이션도 설계했다는 점이 주목할 만합니다. 이런 방식으로 의사는 고위험 환자에게 가능한 한 일찍 유리한 조치를 취해 환자의 생존 확률을 높일 수 있습니다.

의료 분야의 AI는 밝은 미래를 가지고 있지만, 우리는 맹목적으로 낙관해서는 안 됩니다. 

AI 음성 상호작용, 컴퓨터 비전, 인지 컴퓨팅, 딥러닝 등의 기술이 점차 성숙해짐에 따라, 의료 분야에서 AI를 적용하는 시나리오는 점점 더 다양해지고 있습니다.여기에는 의료 영상, 가상 비서, 약물 개발, 건강 관리, 의료 기록/문헌 분석, 질병 예측 관리 등 여러 분야가 포함됩니다.

중국정보통신기술연구원이 발표한 2020년 인공지능 의료산업 발전 청서에 따르면,국내 AI 의료 분야는 시작이 늦었지만, 시장 수요가 강하고 향후 발전 전망이 밝습니다.이 가운데 주목할 점은 2019년 말 현재 전국 65세 이상 노인 인구 비중이 12.6%에 달해 중국이 공식적으로 고령화 사회에 진입했다는 점이다. 이로 인해 만성질환의 발생률도 해마다 증가하고 있습니다.

이러한 맥락에서 본 연구를 통해 질병 예측 관련 결과가 도출되었으며, 이는 의사와 환자가 건강을 보다 효과적으로 관리하는 데 도움이 될 수 있습니다. 하지만 다른 한편으로는 전반적인 시장 상황을 볼 때 AI 관련 기술이 아직 병원에 대규모로 적용되지 않고 있으며, 병원 측에서도 비용을 지불할 의향이 없다는 점도 보아야 합니다. 이는 사용자의 사용 및 지불 습관, 의료 보험 정책과 같은 지원 인프라, 임상 적용 시나리오의 높은 복잡성과 밀접하게 관련됩니다.따라서 AI 의료 분야는 아직 갈 길이 멀다.

참조 링크:

[1] https://doi.org/10.5334/gh.934

[2] https://doi.org/10.1111/1753-0407.13175

[3] https://doi.org/10.1007/s001250051352

[4] https://doi.org/10.1186/1475-2840-5-15

[5]https://rs.yiigle.com/CN112148202107/1328929.htm

[6]http://www.caict.ac.cn/kxyj/qwfb/ztbg/202009/P020200910495521359097.pdf