HyperAIHyperAI

Command Palette

Search for a command to run...

워싱턴 대학교/마이크로소프트와 다른 연구진은 14,000개의 실제 데이터 세트를 기반으로 종양 면역 미세환경의 파노라마 지도를 만들기 위한 GigaTIME 프로젝트를 제안했습니다.

Featured Image

암의 진화적 맥락에서 종양 면역 미세환경은 암세포의 성장, 침윤 및 전이를 좌우할 뿐만 아니라 치료 반응과 환자의 최종 예후에도 지대한 영향을 미칩니다. 이는 암세포의 "단독 작용"이 아니라 면역 세포, 섬유아세포, 내피 세포 및 기타 세포들이 서로 얽히고 상호 작용하는 매우 역동적인 생태계이며, 이들은 세포외 기질에 함께 존재하면서 구조와 기능이 재구성된 정교하고 복잡한 병리학적 네트워크를 형성합니다.

이 네트워크를 해독하는 열쇠는 세포의 기능적 상태와 상호작용을 이해하는 데 있으며, 특정 단백질의 활성화 수준은 중요한 "분자 코드"입니다. 전통적으로,면역조직화학(IHC)은 단백질의 위치를 시각적으로 확인할 수 있는 능력 덕분에 유전자 정보를 해독하는 데 널리 사용되는 고전적인 도구가 되었습니다.예를 들어, PD-L1 염색은 면역관문의 상태를 파악하여 면역요법의 효능을 예측하는 데 널리 사용되어 왔습니다. 그러나 IHC는 한 번에 하나의 단백질에 대한 정보만 얻을 수 있어 여러 단백질이 공존하는 진정한 생태계를 재구성하기 어렵다는 한계가 있으며, 이는 종양-면역 세포 상호작용 메커니즘을 심층적으로 이해하는 데 있어 주요한 병목 현상으로 작용합니다.

이러한 한계를 극복하기 위해 다중 면역형광(mIF) 기술이 개발되었습니다. 이 기술은 단일 조직 절편에서 여러 단백질의 공간적 분포를 동시에 나타낼 수 있으며, 조직 구조의 맥락적 정보를 완벽하게 보존합니다.하지만 이 기술은 비용이 많이 들고 염색, 이미지 촬영, 분석 등 모든 과정이 매우 복잡하고 시간이 오래 걸립니다.이로 인해 대규모 데이터 축적이 어려워지고 임상 적용이 저해됩니다.

이와는 대조적으로, H&E 염색 조직 절편은 임상 현장에서 널리 사용 가능하고 비용도 저렴합니다. H&E 염색은 단백질 활성을 직접적으로 보여주지는 못하지만, 조직의 전체 구조와 세포 형태의 세부 사항을 완벽하게 보존합니다. 그 안에 숨겨진 특징들은 세포의 기능적 상태를 간접적으로 반영할 수 있지만, 이러한 미묘하고 복잡한 패턴은 종종 인간의 시각적 인지 한계를 넘어섭니다.

최근 인공지능 기술의 획기적인 발전은 새로운 가능성을 열어주었습니다. 방대한 양의 병리학적 이미지를 활용한 사전 학습을 통해 AI는 강력한 시각 분석 및 특징 추출 능력을 입증했습니다. 이는 중요한 질문으로 이어집니다. 이전에는 고가의 미세형광염색(mIF) 기술을 통해서만 얻을 수 있었던 단백질 활성화 정보를 AI를 이용하여 손쉽게 구할 수 있는 H&E 염색 이미지에서 "해독"할 수 있을까요?

이러한 사고방식에 따르면,마이크로소프트 리서치, 워싱턴 대학교, 프로비던스 지노믹스로 구성된 연구팀이 다중 모드 인공지능 프레임워크인 GigaTIME을 제안했습니다.첨단 멀티모달 학습 기술을 활용하여 기존의 H&E 염색 조직 슬라이드에서 가상 mIF 맵을 생성할 수 있습니다. 연구팀은 이 기술을 미국 프로비던스 메디컬 센터의 14,000명 이상의 암 환자 코호트에 적용하여 24가지 암 유형과 306가지 하위 유형을 분석했고, 최종적으로 약 30만 개의 가상 mIF 이미지를 생성하여 대규모의 다양한 인구 집단에서 종양 면역 미세환경을 체계적으로 모델링하는 데 성공했습니다.

"다중 모드 AI를 이용한 종양 미세 환경 모델링을 위한 가상 인구 생성"이라는 제목의 관련 연구 결과가 Cell지에 게재되었습니다.

연구 하이라이트:

* GigaTIME은 다중 모달 AI를 사용하여 H&E 염색 병리 슬라이드를 공간 단백질체학 데이터로 변환하고, 일반적인 H&E 염색 슬라이드에서 세포 상태를 포함하는 가상 집단을 생성합니다.

* 대규모 임상 연구 및 환자 분류를 지원하고, 새로운 공간적 및 조합적 단백질 활성화 패턴을 밝혀냅니다.

서류 주소:https://www.cell.com/cell/fulltext/S0092-8674(25)01312-1 
저희 공식 위챗 계정을 팔로우하시고 백그라운드에서 "다중 예방접종"이라고 답글을 보내시면 전체 PDF 파일을 받으실 수 있습니다.
더 많은 AI 프런티어 논문:
https://hyper.ai/papers

데이터셋: 학습부터 응용까지 완벽한 폐쇄 루프 구축

모델을 훈련시키려면 먼저 근본적인 모순을 해결해야 합니다. 임상에서 널리 사용되고 저렴한 H&E 염색은 단백질 활성을 직접적으로 보여줄 수 없는 반면, 여러 단백질 간의 공간적 관계를 밝힐 수 있는 mIF 기술은 비용이 많이 들고 복잡하여 대규모 구현이 어렵습니다. 이 두 가지 영상 기법을 연결하는 AI 모델을 구축하기 위해,연구팀은 COMET 플랫폼을 사용하여 H&E 염색된 21개 조직 절편에서 441개의 mIF 이미지를 수집했습니다.아래 그림에서 볼 수 있듯이, 이 이미지들은 DAPI 및 PHH3와 같은 핵 단백질, CD4 및 CD11c와 같은 표면 단백질, 그리고 CD68과 같은 세포질 단백질에 이르기까지 총 21개의 주요 바이오마커를 포함합니다. 이 이미지들은 종양 미세환경 내 면역 세포의 구성, 기능 상태 및 활동을 분석하는 데 중요한 근거를 제공합니다.

훈련 데이터의 데이터 획득 및 채널 분포

쌍을 이룬 이미지를 얻은 후, 더 큰 과제는 이 이미지들로부터 고품질의 학습 데이터를 추출하는 것입니다. 이를 위해 아래 그림과 같이 연구팀은 엄격한 처리 워크플로우를 설계했습니다. 먼저 VALIS 도구를 사용하여 H&E 이미지와 mIF 이미지를 픽셀 단위로 정밀하게 정렬합니다. 그런 다음 StarDist 알고리즘을 사용하여 이미지의 각 세포를 식별하고 분할합니다. 마지막으로 Dice 계수를 기준으로 가장 높은 정합 품질을 갖는 이미지 영역을 선택합니다.

여러 단계의 품질 관리를 통해연구팀은 4천만 개의 세포가 포함된 초기 데이터에서 1천만 개의 고품질 세포를 선별하여 훈련 세트, 검증 세트 및 독립 테스트 세트로 나누었습니다.또한, 본 연구에서는 조직 마이크로어레이에서 얻은 유방암 및 뇌암 샘플을 외부 검증 세트로 도입했습니다. 이 샘플들은 조직 구조 및 형태 면에서 훈련 데이터와 크게 달랐습니다. 훈련 데이터의 크고 연속적인 조직 조각과는 달리, 이 샘플들은 빈 공간으로 분리된 작은 원통형 조직 블록 형태로 나타났기 때문에, 새로운 샘플 유형과 이전에 접하지 못한 암 유형에 대한 모델의 일반화 능력을 효과적으로 검증할 수 있었습니다.

훈련 데이터 전처리 워크플로

모델 적용 수준에서, 본 연구는 두 개의 대규모 상호보완적인 가상 인구 코호트를 구축했습니다.첫 번째 데이터 세트는 미국 기반 의료 그룹인 프로비던스 헬스(Providence Health)의 임상 네트워크에서 수집되었으며, 51개 병원과 1,000개 이상의 클리닉에서 진료받은 14,256명의 암 환자로부터 얻은 H&E 염색 조직 샘플을 포함합니다. 이 데이터 세트는 24가지 주요 암 유형과 306가지 하위 유형을 포괄하며, 유전체 바이오마커, 병리학적 병기, 생존 추적 관찰과 같은 풍부한 임상 정보를 통합하고 있습니다. 이 데이터 세트의 고유한 가치는 실제 임상 환경을 반영한다는 점에 있습니다. 즉, 초기 단계부터 말기 단계까지 질병의 모든 스펙트럼을 아우르는 매우 다양한 환자 집단을 포함하고 있어 임상 현장의 복잡성을 현실적으로 보여줍니다.

두 번째 코호트는 암 게놈 아틀라스(TCGA) 공개 데이터베이스에서 가져왔습니다.본 연구는 주로 초기 단계의 미치료 외과 환자로부터 얻은 10,200개의 H&E 염색 슬라이드를 포함했습니다. 이 두 코호트는 환자 출신, 질병 단계 및 임상적 맥락에서 뚜렷한 대조를 보였습니다. 이러한 차별화된 설계는 모델의 신뢰성과 일반화 가능성을 검증하는 데 최적의 조건을 제공했습니다. 이처럼 다양한 데이터 세트에서 일관되고 견고한 생물학적 결론이 도출된 것은 모델의 광범위한 임상적 잠재력을 강력하게 시사합니다.

프로비던스 헬스의 암 유형별 데이터

GigaTIME: 형태와 기능의 지능적인 연결고리 구축

GigaTIME 모델은 종양 면역 미세환경 연구의 핵심 병목 현상인 고비용 저처리량의 mIF 기술 보급의 어려움과, 일반적인 임상 H&E 염색 이미지로는 단백질 기능 활성을 직접적으로 반영할 수 없다는 문제점을 직접적으로 해결합니다. 이 모델은 인공지능을 활용하여 H&E 이미지로부터 가상 mIF 이미지를 학습 및 생성함으로써, 인구 규모에서 종양 면역 미세환경을 저비용으로 체계적으로 분석할 수 있는 실현 가능한 방안을 제시합니다.

이 모델은 정교하게 설계된 패치워크 인코더-디코더 프레임워크를 사용하며, 그 핵심은 중첩된 U자형 네트워크를 기반으로 구축됩니다.이 아키텍처의 장점은 이미지의 미묘한 국소적 특징과 전체적인 조직 구조를 동시에 포착할 수 있다는 점입니다. 구체적으로, 네트워크의 인코더 부분은 입력 256×256 픽셀 H&E 염색 이미지 패치에서 컨볼루션 및 다운샘플링 연산을 통해 다단계 특징 표현을 추출합니다. 그런 다음 디코더 부분은 업샘플링 및 특징 융합을 통해 이러한 추상적인 특징을 공간 해상도를 가진 가상 mIF 이미지로 재구성합니다. 이러한 설계 덕분에 모델은 개별 세포의 미세한 형태와 세포 집단의 조직 패턴 모두에 집중할 수 있습니다.

GigaTIME은 H&E 염색된 전체 슬라이스 이미지를 수신하고 21개 단백질 채널에 대한 mIF 정보를 출력합니다.

출력 수준에서 모델 설계는 생물학적 문제에 대한 심도 있는 고려를 반영합니다.GigaTIME은 미리 설정된 21개의 단백질 채널 각각에 대해 입력 이미지의 모든 픽셀에 대해 이진 분류 예측을 수행합니다.이 시스템은 특정 위치에서 특정 단백질이 활성화되었는지 여부를 판단하여 픽셀 수준의 단백질 활성 지도를 생성합니다. 이러한 국소 예측 결과를 매끄럽게 결합하여 전체 조직 절편의 가상 mIF 이미지를 재구성할 수 있습니다. 이를 통해 종양 부위에서 특정 단백질의 활성화 밀도 및 공간 분포 패턴과 같은 다양한 정량적 지표를 계산할 수 있으며, 후속적인 고처리량 분석 및 임상 상관관계 연구를 위한 견고한 데이터 기반을 제공합니다.

GigaTIME 변환을 통해 대규모 인구 집단에서 얻은 가상 mIF 점수

효과적인 모델 학습을 보장하기 위해 훈련 전략을 체계적으로 최적화했습니다.손실 함수는 Dice 손실과 이진 교차 엔트로피 손실을 영리하게 결합했습니다. Dice 손실은 예측된 활성 영역과 실제 영역의 공간적 윤곽선 측면에서 전반적인 일관성을 보장하는 데 중점을 두고, 이진 교차 엔트로피 손실은 각 픽셀의 분류 정확도를 향상시키는 데 중점을 둡니다. 이 두 가지의 시너지 효과를 통해 전역적인 공간 패턴의 정확한 재구성과 세부 수준에서의 신뢰성을 모두 확보할 수 있습니다. 모델은 배치 크기 16, 학습률 0.0001로 8개의 NVIDIA A100 GPU에서 250 에포크 동안 학습되었습니다. 모든 주요 하이퍼파라미터는 검증 세트 결과를 기반으로 시스템 디버깅을 통해 결정되었습니다.

특히, 모델의 성공은 고품질 학습 데이터에 크게 좌우된다는 점을 강조하는 것이 중요합니다.연구팀은 엄격한 이미지 정합, 세포 분할 및 품질 관리 절차를 적용했습니다.방대한 초기 데이터에서 1천만 개의 고품질 세포를 선별하여 훈련에 사용함으로써, 모델이 표면적인 통계적 규칙성이나 잡음이 섞인 패턴이 아닌, 견고하고 신뢰할 수 있으며 생물학적으로 의미 있는 교차 모달 매핑을 학습하도록 했습니다.

약 30만 개의 가상 이미지를 기반으로 한 대규모 연구 결과: GigaTIME은 1,234개의 임상적 연관성을 밝혀냈습니다.

GigaTIME의 성능과 가치를 종합적으로 평가하기 위해 연구팀은 기술 검증과 임상 결과라는 두 가지 차원에서 체계적인 평가 방안을 설계했습니다.

기술적 검증 측면에서,본 연구는 픽셀, 셀, 슬라이스의 세 가지 수준에서 모델의 이미지 변환 기능을 평가했습니다.픽셀 수준에서 GigaTIME은 21개 단백질 채널 중 15개에서 기준 모델인 CycleGAN보다 훨씬 뛰어난 성능을 보였습니다. 예를 들어, DAPI 채널에서 GigaTIME은 0.72의 Dice 계수를 달성하여 단순 통계적 기준 모델의 0.12를 크게 앞섰습니다.

세포 수준에서 보면,GigaTIME은 DAPI 채널에서 0.59의 상관관계를 달성한 반면, CycleGAN은 0.03에 그쳐 무작위 수준에 근접했습니다.

슬라이스 레벨에서GigaTIME의 DAPI 채널 상관 계수는 0.98에 달하며 모든 채널의 평균은 0.56인 반면, CycleGAN의 상관 계수는 0에 가깝습니다. 이러한 결과는 고품질 쌍 데이터를 기반으로 한 지도 학습이 정확한 교차 모달 변환에 매우 중요하다는 것을 보여줍니다.

이미지 변환에서 GigaTIME과 CycleGAN의 성능 비교

임상적 소견 측면에서, 본 연구는 14,256명의 환자로부터 얻은 약 30만 개의 가상 mIF 이미지를 활용했습니다.가상 단백질 발현과 20가지 임상 바이오마커 간의 연관성을 체계적으로 분석하였다.엄격한 통계적 검정과 다중 수정 과정을 거친 결과, 총 1,234개의 유의미한 연관성이 확인되었으며, 이는 전체 암종, 암 유형, 암 하위 유형의 세 가지 수준에 걸쳐 분포되어 있습니다.

GigaTIME은 전암, 암 유형 및 암 하위 유형 수준에서 생의학적 발견을 가능하게 했습니다.

범암 분석에서 확인된 175개의 연관성 중, 높은 종양 돌연변이 부담과 높은 미세위성 불안정성은 여러 면역 침윤 표지자(CD138, CD20, CD68, CD4)의 활성화 증가와 유의미하게 연관되어 있었으며, 이는 항원 유도 면역 활성화 기전과 일치합니다. 또한 새로운 단서들이 발견되었습니다. KMT2D 돌연변이는 면역 표지자와 강한 양의 상관관계를 보여 면역 침윤 촉진 가능성을 시사하는 반면, KRAS 돌연변이는 음의 상관관계를 보여 면역 거부 표현형을 반영합니다. 특정 암 유형 및 아형에서는 모델이 수많은 특이적 연관성을 나타냈습니다. 예를 들어, 뇌암에서 T-bet과 TP53 돌연변이 사이의 강한 상관관계는 범암 수준에서는 관찰되지 않았는데, 이는 중추신경계의 특수한 면역 미세환경과 관련이 있을 가능성이 있습니다. 폐암 아형 분석 결과, 폐선암의 PRKDC 돌연변이는 편평세포암보다 면역 반응 지표와 더 강한 연관성을 보였으며, 이는 조직학적 맥락과 함께 데이터를 해석하는 것이 중요하다는 것을 확인시켜 준다.

이번 연구는 또한 임상 결과에서 가상 데이터의 가치를 입증했습니다.분석 결과, 원발 종양 크기(T 병기)와 면역 체크포인트 및 침윤 표지자 사이에 양의 상관관계가 나타났지만, 진행된 병기에서는 이러한 연관성이 역전되어 진행성 종양은 주로 다른 면역 회피 기전에 의해 유발될 수 있음을 시사합니다. 생존 분석에서 21개 경로를 모두 통합한 복합 특징은 단일 단백질 분석보다 환자 분류에서 우수한 성능을 보였으며, 다중 매개변수 결합 분석의 가치를 명확히 입증했습니다.

전암, 암 유형, 폐암 아형 및 병리학적 단계에서 단백질 채널 간의 유의미한 연관성

신뢰성을 확보하기 위해 모든 주요 결과는 TCGA의 독립적인 코호트에서 검증되었습니다. 두 집단의 기원과 임상적 특성에 상당한 차이가 있음에도 불구하고 핵심 결과는 매우 높은 일관성을 보였습니다(암 하위 유형 수준에서 스피어만 상관계수 0.88).공통적으로 확인된 80개의 유의미한 연관성은 매우 높은 통계적 유의성(p<2×10⁻⁹)을 보였다.한편, 프로비던스 헬스의 가상 인구 집단은 TCGA보다 전체 암종 수준에서 331개의 유의미한 연관성을 더 많이 보여주었으며, 이는 대규모 실제 데이터의 고유한 가치를 강조합니다.

범암 GigaTIME 단백질-바이오마커 쌍

탐색적 분석 결과 복잡한 공간 패턴의 가치도 밝혀졌습니다. 엔트로피, 신호 대 잡음비, 선명도와 같은 지표는 각각 89, 63, 79개의 단백질-바이오마커 쌍에서 단순 활성화 밀도보다 우수한 성능을 보였습니다. 또한, 본 연구는 단백질 간의 시너지 효과를 발견했습니다.CD138과 CD68의 조합은 20개의 바이오마커를 예측하는 데 있어 단일 단백질보다 우수한 성능을 보였다.이러한 차이점 중 13개는 통계적으로 유의미했으며, 이는 형질세포와 대식세포가 항체 매개 기전을 통해 종양과 싸우기 위해 협력할 수 있음을 시사합니다.

AI 기반 기술: 가상 단백질 지도에서 암 연구의 새로운 지평까지

인공지능을 활용하여 일반 병리 슬라이드로부터 가상 단백질체 이미지를 생성하는 것은 디지털 병리학 및 계산 생물학 분야 혁신의 핵심입니다. 이러한 방향은 전 세계 유수의 학술 기관들의 연구를 끌어모았을 뿐만 아니라, 생명공학 기업들의 상업적 활용도 촉진하고 있습니다.

학계에서스탠포드 대학교에서 네이처 메디신에 발표한 HEX 모델819,000쌍의 이미지 블록으로 학습된 DeepHeme 시스템은 40개의 바이오마커의 공간적 발현을 예측할 수 있으며, GigaTIME보다 더 광범위한 단백질 범위를 커버합니다. 샌프란시스코 캘리포니아 대학교에서 Science Translational Medicine에 발표한 DeepHeme 시스템은 약 50,000개의 고품질 다기관 데이터 세트를 기반으로 23가지 유형의 골수 세포를 정확하게 분류하여 혈액 질환 진단 자동화의 새로운 패러다임을 제시합니다.

업계에서 리빌 바이오사이언스는 빌 & 멜린다 게이츠 재단의 지원을 받고 있습니다.병리 영상에서 "디지털 바이오마커"를 추출하는 플랫폼을 개발합니다.글로벌 보건 연구를 가속화하는 또 다른 방법은 하드웨어 혁신을 통해 비용을 절감하는 것입니다. 예를 들어, 마이크로닛(Micronit)의 미세유체 장치는 샘플과 시약 소모량을 크게 줄여줍니다. 옵텔럼(Optellum)의 FDA 승인 폐결절 진단 플랫폼은 임상 의사결정을 위해 일상적인 데이터에서 더 심층적인 특징을 추출하는 데 있어 상업적 패러다임과 규제 선례를 제공합니다.

GigaTIME은 이 분야에서 중요한 이정표입니다.이는 종양 면역 미세환경 연구에서 다중 모드 AI의 엄청난 잠재력을 보여줄 뿐만 아니라, 후속 연구를 위한 재사용 가능한 기술 프레임워크와 데이터 자원을 제공합니다.향후 발전은 가상현실 데이터 생성 능력과 저비용 탐지 기술의 결합된 발전에 달려 있으며, 궁극적으로 종양의 복잡성을 이해하고 정밀 의학을 가속화하는 혁신적인 도구를 제공할 것입니다.

참조 링크:
1.https://mp.weixin.qq.com/s/AsqSemP3idCbIJ7xQ3gXGg
2.https://mp.weixin.qq.com/s/umg-UrMm6Qe-R-MbLpLZOQ