HyperAI초신경

코넬대 연구팀은 800만 건의 실제 데이터를 기반으로 그래프 신경망을 사용해 폐암 환자의 생존율을 정확하게 예측하고 치명적인 3가지 하위 유형을 발견했습니다.

特色图像

10년 전, CheckMate 017 시험 결과는 종양학계에 충격을 주었습니다. New England Journal of Medicine, The Journal of the American Medical Association 및 기타 학술지에서는 PD-1 억제제인 니볼루맙으로 치료한 진행성 편평세포 폐암 환자의 생존 데이터가 상당히 개선되었다고 여러 번 보고했습니다. 화학 요법을 받은 경우 전체 생존 기간의 중앙값이 6개월에서 9.2개월로 늘어났고, 18개월 생존율은 화학 요법을 받은 그룹의 두 배였습니다. 이 연구는 면역 체크포인트 억제제(ICI) 시대의 시작을 알리는 동시에 진행성 비소세포 폐암(aNSCLC) 환자가 면역 요법에 다르게 반응한다는 문제점도 드러냈습니다.실험 결과, 일부 환자의 종양은 3년 이상 완화되었지만, 다른 환자의 종양은 몇 달 안에 질병이 진행되었습니다. 정밀의학 시대에는 치료 반응의 이질성이 문제가 되었습니다.

폐암의 복잡성은 높은 이질성에서 비롯됩니다. 비소세포폐암(NSCLC)은 폐암의 80%-85%를 차지합니다.약 75% 환자가 진행성 단계에서 진단을 받았으며, 5년 생존율은 26.4%에 불과합니다.종양 미세환경 바이오마커의 차등적 발현, 면역 세포의 다양한 기능 상태, 환자의 다양한 합병증은 병리학적 상황을 복잡하게 만듭니다. ICI 치료를 받는 환자는 PD-L1 발현이 높아서 이점을 얻을 수 있지만, 종양 돌연변이 부하가 낮아 효능이 떨어질 수도 있으며, 동반 질환도 치료 옵션과 예후에 영향을 미칠 수 있습니다.

이러한 과제를 해결하기 위해 진단 및 치료 계획은 "획일적" 방식에서 "정확한 계층화" 방식으로 전환되고 있습니다. 이러한 변화 과정에서 예측 의학이 점차 등장했습니다. 이 기술의 핵심 목표는 전자 건강 기록과 오믹스 정보를 포함한 다차원 데이터를 통합하여 각 환자에게 가장 적합한 치료 계획을 세우는 것입니다. 최근 몇 년 동안 대규모 생물의학 데이터가 지속적으로 축적되고 머신 러닝 기술이 급속히 발전함에 따라 연구자들은 유사한 특성을 가진 환자 그룹을 클러스터링하여 치료 반응을 예측하기 위해 비지도 머신 러닝 방법을 사용하려고 시도하기 시작했습니다. 하지만 안타깝게도 전통적인 방법은 실제 적용에 한계가 있는 경우가 많습니다.그룹 내 환자 간 생존 결과에 일관성을 보장하는 것은 어렵기 때문에 임상에서 계층화된 결과의 적용 가치가 제한됩니다.

위의 문제를 해결하기 위해 코넬 대학과 리제네론 제약회사는 그래프 인코딩 혼합 생존 모델(GEMS)을 제안했습니다.환자의 전자 건강 기록의 복잡한 관계는 그래프 신경망을 통해 인코딩되었으며, 생존 분석 모델과 결합하여 일관된 특성과 생존 결과를 보이는 하위 표현형을 식별했습니다.이 연구에서는 전반적인 생존율(OS)을 예측하는 데 있어 기존 방법보다 우수한 것으로 나타났으며, 서로 다른 임상적 특성과 생존 패턴을 가진 세 가지 하위 표현형을 식별하여 폐암에 대한 정밀 의학의 새로운 길을 열었습니다.

관련 연구 결과는 "실제 데이터와 머신 러닝을 활용한 임상 결과에 대한 예측 하위 표현형 식별"이라는 제목으로 Nature Communication에 게재되었습니다.

서류 주소:

https://doi.org/10.1038/s41467-025-59092-8

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 놓았으며, 방대한 데이터 세트와 도구도 제공합니다.

https://github.com/hyperai/awesome-ai4s

ConcertAI의 대규모 실제 데이터 세트를 기반으로 진행성 비소세포 폐암 환자 코호트 구성

이 연구에서는 미국 종양학 전자 건강 기록(EHR) 데이터베이스의 ConcertAI Patient360™ NSCLC 데이터 세트를 사용하여 1차(1L) 면역 체크포인트 억제제(ICI) 치료를 받는 진행성 비소세포 폐암(aNSCLC) 환자 코호트를 구성했습니다.이 데이터 세트는 ConcertAI 네트워크에서 추출한 미국 기반의 익명화된 환자 수준 데이터 세트로, 800만 명 이상의 고유 환자를 포괄합니다.50개 주 전체의 지역 사회 및 학술 기관에서 치료받은 환자를 대표하는 900개 이상의 종양학 및 혈액학 암 클리닉에서 얻은 데이터가 추출되었습니다. 여기에는 질병 재발 날짜 및 유형, 조직학, PD-L1 검사 정보, 종양 반응, ECOG-PS 및 동반 질환에 대한 데이터가 포함됩니다.

아래 그림에서 볼 수 있듯이, 이 연구에서는 2015년 1월부터 2023년 1월까지 조직학적으로 확인된 비소세포폐암(NSCLC) 환자(n=17,265)를 선택하여 후향적 관찰 코호트를 구성했습니다. 포함/제외 기준 및 유효한 전체 생존율(OS) 기록이 없는 환자 제외 후,이 연구에는 4,666명의 환자가 포함되었으며, 환자는 인구 통계 정보, 실험실 검사 결과 및 기타 변수를 포함한 차원으로 구성된 104차원 벡터로 표현되었습니다.

연구진은 미국 인구조사국이 정의한 임상 시설의 지리적 지역을 기반으로 코호트를 모델 개발(북동부, 남부, 서부 지역, n=3,225)과 검증 하위 코호트(중서부 지역, n=1,441)로 나누었습니다. 두 하위 코호트의 인구 통계는 유사했으며, 검증 하위 코호트에는 백인 환자와 지역 의료 기관의 환자가 더 많이 포함되었습니다. 연구의 관찰 기간은 지수 날짜로부터 180일 전이었습니다. 전반적 생존율(OS)은 지표일부터 어떠한 원인으로든 사망할 때까지의 시간으로 정의되고, 진행이 없는 생존율(PFS)은 지표일부터 첫 번째 실제 진행 사건 또는 어떠한 원인으로든 사망할 때까지의 시간으로 정의됩니다. 본 연구의 목적은 이 데이터 세트의 관련 분석을 통해 진행성 비소세포 폐암 환자의 생존율 예측 등의 문제를 해결하는 것입니다.

데이터셋 표준 수립 및 데이터 사전 학습

GEMS 모델 구축: GNN 기반 생존 하위 표현형 식별 및 진행성 비소세포 폐암에 대한 예측 성능 검증

이 연구에서는 GEMS 모델을 사용하여 진행성 비소세포 폐암(aNSCLC) 환자의 실제 전반적 생존율(OS) 특성과 관련된 예측 하위 표현형을 식별하도록 설계되었습니다.핵심 아키텍처에는 GNN 인코더, 클러스터 모듈, 혼합물 생존 예측기가 포함됩니다.

그 중 GNN 인코더는 환자의 104차원 특징 벡터(인구 통계, 실험실 검사 결과, 전이 상태 등의 변수를 포함)의 그래프 구조 관계를 포착하여 고차원 환자 표현을 효과적으로 추출합니다. 인코딩된 표현은 하이브리드 모델의 기본 구성 요소로서 생존 예측 값을 갖는 하위 표현형을 생성하기 위해 클러스터링 모듈에 입력됩니다.

GEMS 모델 배포 및 하위 표현형 파생 플롯

모델 훈련은 먼저 개발 코호트(n=3,225)를 데이터 지원으로 사용하고 일관성 지수(c-index)와 쌍별 로그 순위 점수를 평가 지표로 사용했으며, 이를 Cox 비례 위험 회귀(CPH), 그래디언트 부스트 결정 트리(GBDT), 신경 생존 클러스터링(NSC) 및 K-평균, 계층적 클러스터링과 같은 비지도 방법과 같은 기존 기준 모델과 비교했습니다.

실험 결과는 다음 표에 나타나 있다.GEMS는 전반적인 생존율을 예측하는 데 좋은 성과를 보였습니다.평균 c-지수는 0.665(95% CI: 0.662-0.667)에 도달했으며, 이는 가장 좋은 기준 모델인 GBDT의 0.652보다 상당히 높았습니다. 로그 순위 점수는 69.17(95% CI: 58.98-76.98)로 NSC의 56.23을 크게 넘어섰으며, 이는 지도 학습 프레임워크가 데이터 기능을 효과적으로 사용했음을 입증합니다.

모델 점수 지표 비교 결과

그 다음에,이 연구에서는 환자와 GNN 인코더에서 파생된 표현을 시각화하여 GEMS에 대한 GNN 인코더의 영향을 더욱 자세히 설명했습니다.균일 다양체 근사 및 투영(UMAP)이 사용됩니다. 아래 그림에서 보듯이, 균일 매니폴드 근사 투영(UMAP) 시각화를 통해 GNN 인코더에서 출력한 환자 표현 공간에서는 총 생존 시간이 다른 환자 그룹이 명확하게 분리되어 있는 반면, 원래의 특징 공간에서는 다양한 유형의 환자가 혼합되어 분포되어 있는 것을 알 수 있습니다. 이는 그래프 신경망이 복잡한 특징 관계를 모델링하는 능력을 직관적으로 반영합니다.


환자의 UMAP 시각화
그림 a: 원래 기능의 UMAP 시각화 그림 b: GNN 인코더로 얻은 기능의 UMAP 시각화

아래 그림과 같이,연구자들은 또한 이 모델을 사용하여 생존율에 상당한 차이가 있는 세 가지 예측 하위 표현형을 식별했습니다.하위 표현형 1(n=1335)은 여성 비율이 높고(55.50%), 합병증이 경미하며 전이 부담이 낮고, 전체 평균 생존일이 688일이며, 기침 억제제와 β 차단제 사용률이 가장 낮고 뼈/뇌/부신 전이 발생률이 낮은 것이 특징입니다. 2형(n=420)의 생존 곡선은 중간 수준의 합병증과 전이 부담을 동반한 중기 위험 증가를 보였습니다. 하위 표현형 3(n=1420)은 여성 비율이 35.21%이고 전체 생존율은 321일에 불과했으며, 여러 가지 약물을 복용하고, 전이율이 높고(간 전이 31.20%, 뼈 전이 51.48%), 심각한 합병증(수분 및 전해질 장애 8.31%, 신장 이상 21.43%)이 있으며, 전이-합병증-검사실 이상의 가장 복잡한 동시 발생 패턴을 보였습니다.

다양한 하위 표현형의 비교

* 그림 a: 각 하위 표현형에 대한 전체 생존율의 Kaplan-Meier 곡선

* 그림 b: 각 하위 유형의 약물 투여율에 대한 선버스트 다이어그램

* 그림 c: 전이(좌), 합병증(가운데), 비정상적 임상적 특징의 분류 차이에 대한 코드 다이어그램

* 그림 d: 다양한 하위 표현형의 발생률

이 연구에서는 서로 다른 하위 표현형 간의 다양한 특성을 더 잘 이해하기 위해 하위 표현형 간 각 변인의 차이점을 검정했습니다. 아래 그림에서 보듯이, 핵심 예측 요인 분석은 동부 협동 종양학 그룹 성과 상태(ECOG 성과)와 총 전이 부위 수(총 전이)가 하위 표현형을 구별하는 핵심 지표임을 보여주었습니다. 실험실 지표에 따르면, 호중구-림프구 비율(NLR)과 호중구-단핵구-림프구 비율(NMLR)은 하위 표현형 2의 특징적인 매개변수인 반면, 하위 표현형 1은 정상 알부민 수치(백혈구 수)와 높은 헤마토크릿(헤마토크릿)과 관련이 있고, 하위 표현형 3은 심박수 증가(심박수 bpm), 산소 포화도 감소(산소 포화), 알칼리성 인산가수분해효소 증가(알칼리성 인산가수분해효소)와 같은 지표와 밀접한 관련이 있습니다.

위의 결과는 다음을 보여줍니다.GEMS 모델은 비소세포폐암 환자의 생존 예후를 정확하게 계층화할 뿐만 아니라,더욱이 하위 표현형 특성 분석을 통해 실제 데이터를 기반으로 한 임상적 의사 결정 기반을 제공하여 개인화된 치료 전략을 수립할 수 있습니다.

가장 중요한 15가지 특징 분석

폐암의 정밀 진단 및 치료 분야의 세계적 혁명: AI와 다중 오믹스 기술은 생존 환경을 어떻게 바꿀까?

폐암 진단 및 치료 분야에서는 인공지능(AI)과 정밀 의학이 주도하는 혁신이 임상 실무를 재편하고 있습니다. 캐나다 토론토 대학의 연구팀은 순환 종양 DNA의 EGFR 돌연변이를 분석하는 AI 지원 혈액 검사 기술을 개발했습니다.머신 러닝과 임상 데이터를 결합하면 표적 치료의 혜택을 받는 사람의 인식률이 효과적으로 향상됩니다.이 기술은 EGFR 민감 돌연변이를 가진 환자가 EGFR 티로신 키나제 억제제(TKI) 치료를 정확하게 받을 수 있도록 하여 중앙 무진행 생존기간을 크게 연장합니다.
논문 링크:https://pubmed.ncbi.nlm.nih.gov/35624472/

런던대학교의 "evA.I. 시스템"은 27차원의 임상 데이터를 사용합니다.면역 체크포인트 억제제(ICI) 반응을 정확하게 예측하고 약물 내성 집단을 식별하는 데 도움이 됩니다.이를 통해 면역 치료의 효과가 향상되고 전체 생존기간이 중앙값으로 연장됩니다.
논문 링크:https://pmc.ncbi.nlm.nih.gov/articles/PMC10957591/

중국에서는 대학과 기업에서 진행성 비소세포 폐암의 정밀 진단 및 치료 연구에 대한 혁신적인 성과가 계속해서 나타나고 있습니다. 예를 들어,동지대학교 장펭 교수팀과 중국과학원 연구팀은 세계 최초로 소세포 폐암 단백질 유전체 지도 연구를 완료했습니다.,112개 샘플의 다차원 오믹스 데이터를 통합하여 HMGB3 단백질의 높은 발현이 불량한 예후와 관련이 있음을 발견하였고, ZFHX3 돌연변이 상태를 기반으로 한 면역 치료의 이점 예측 모델을 확립하여 분자 타이핑에 의한 정밀 치료를 위한 새로운 길을 열었습니다.
논문 링크:https://doi.org/10.1016/j.cell.2023.12.004

청화대학교 선전국제대학원과 선전인민병원이 공동으로 'AI + 지능형 병리학' 시스템을 개발했습니다.3,000건 이상의 어려운 사례를 심층적으로 학습한 후, 정확도 97%로 미분화된 폐암의 조직학적 유형을 정확하게 식별할 수 있습니다.표적 치료에 대한 의사결정 주기를 단축합니다. 그의 팀이 혈액 당단백질 마커를 기반으로 개발한 AI 예측 모델은 폐암 위험을 3년 전에 경고할 수 있으며, 임상적으로 검증된 정확도는 92%를 넘어 초조기 검진을 위한 비침습적 솔루션을 제공합니다.
논문 링크:https://www.nature.com/articles/s41598-025-98731-4

참고문헌:
1.https://mp.weixin.qq.com/s/LBcVbQUpTYRnKZ5I1KY_VA

2.https://doi.org/10.1038/s41467-025-59092-8