ICLR 2025에 선정되었습니다! 케임브리지 대학이 제안한 셀코멘 모델, 공간 전사체 분석에서 인과 추론의 식별 가능성을 처음으로 달성

생물학에서 세포의 유전자 발현 프로필은 세포의 본질적인 특성과 외부 조직 미세환경에 대한 정보를 모두 인코딩합니다. 이 두 가지 효과 사이의 인과관계를 밝히는 것은 세포 내부와 세포 간의 복잡한 상호작용을 완전히 이해하는 데 중요합니다. 이를 위해서는 강력한 인과관계 분석 프레임워크가 필요합니다.
인과적 분리는 데이터에서 인과 관계를 밝혀 유용한 특성과 무관한 특성을 분리하는 것을 목표로 하는 머신 러닝 방법으로, 이를 통해 모델의 잘못된 상관 관계에 대한 의존도를 줄이고 모델의 견고성과 일반화 능력을 향상시킵니다. 인과적 분리와 같은 기계 학습 이론의 발전과 함께 생물학 분야의 기술적 진보는 공간 전사체학의 개발을 촉진하여 연구자들이 단일 세포 분해능으로 세포의 유전자 발현과 공간 좌표를 동시에 측정하고 공간 샘플에서 대규모 유전자 녹아웃과 같은 교란 실험을 수행할 수 있게 했습니다.
하지만,공간 전사체학에 대한 현재의 계산적 접근 방식은 세포 및 조직 수준에서의 인과적 교란 모델링을 종종 무시합니다.이는 조직의 질병 상태 이면에 있는 메커니즘을 밝히는 데 중요합니다. 예를 들어, 가상 세포 모델은 미세환경과 거시환경(예: 공여자 연령, 세포 조직, 약물 치료, gRNA 매개 유전자 녹아웃 등)의 변화가 유전자 발현에 미치는 영향을 예측할 수 있으며, 가상 조직 모델은 환경이 단일 세포에 미치는 영향을 추정할 수 있을 뿐만 아니라 단일 세포가 주변 환경과 전체 조직에 미치는 영향을 추론할 수도 있습니다.
이를 바탕으로,케임브리지 대학의 연구팀은 셀코멘(Celcomen)이라는 가상 조직 모델을 제안했습니다. 이는 본질적으로 수학적 인과관계에 기반한 새로운 그래프 신경망으로, 공간 전사체학과 단일 세포 데이터에서 세포 내 및 세포 간 유전자 조절의 비밀을 풀기 위한 것입니다.연구진은 셀코멘이 실제 및 자체 시뮬레이션된 공간 전사체 데이터에서 유전자-유전자 상호작용을 풀고 복구하는 능력을 검증했습니다.
관련 결과는 "공간적 인과적 분리를 통한 공간 전사체학에서 단일 세포 및 조직 교란 효과 추정"이라는 제목으로 ICLR 2025에 선정되었습니다.
연구 하이라이트:
* 이 연구는 가상 세포 모델을 가상 조직 모델로 확장하는 것이 가능하다는 것을 증명합니다.
* 이 연구는 공간 전사체 분석에서 최초로 인과적으로 식별 가능한 모델을 제안합니다.
* 분리된 단일 세포 데이터와 공간적 단일 세포 데이터를 통합하여 유전자 조절을 추론합니다.

서류 주소:
https://openreview.net/forum?id=Tqdsruwyac
오픈소스 프로젝트인 "awesome-ai4s"는 200개 이상의 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: Perturbmap 데이터 세트를 사용한 첫 번째 시도
연구진은 셀코멘이 공간적 맥락에서 교란 효과를 정확하게 포착하는 데 효과적임을 입증하기 위해 공간 전사체학에서 유전자 녹아웃을 측정하는 생체 내 전체 전사체 데이터 세트를 기준으로 셀코멘을 벤치마킹했습니다.이걸 퍼터브맵이라고 해요. Perturbmap 데이터 세트에는 KP 폐암을 연구하기 위한 마우스 모델이 포함되어 있으며, 추가로 Jak2 또는 Tgfbr2의 잠재적 녹아웃 데이터도 포함되어 있습니다. 데이터 세트는 5개의 공간 영역을 병변 영역으로 주석 처리합니다. 이는 1) KP 야생형 암, 2) Jak2가 녹아웃된 KP 암, 3) Tgfbr2가 녹아웃된 KP 암의 일부입니다. 아래 그림과 같습니다.

셀코멘의 역량을 평가하는 과정에서,연구자들이 사용한 태아 비장 데이터 세트는 다음에서 나왔습니다. https://developmental.cellatlas.io/fetalimmune,로그 정규화된 형태로 제공되면 로그 변환과 라이브러리 크기 정규화가 수행되었다는 것이 명확합니다.10x Genomics의 신경교종 데이터 세트동일한 라이브러리 크기 정규화, 백만분율(CPM) 및 e를 기준으로 한 대수 변환이 수행되었습니다. 또한, 최소 100개의 세포에서 발현되는 유전자만 유지되었습니다.
모델 아키텍처: 새로운 인과 분석 프레임워크 Celcomen
본 연구에서 제안하는 셀코멘 모델은 라그랑주 역학과 인과 추론을 결합하여 인과 추론의 식별 가능성과 더 높은 모델 해석 가능성을 달성합니다. 간단히 말해서, 식별 가능성이란 모델이 충분한 데이터와 합리적인 가정에 따라 인과 관계를 명확하게 식별할 수 있는지 여부를 의미하며, 여러 가지 다른 가정이나 모델 설정으로 인해 동일한 관찰 결과가 도출되는 것을 의미하지 않습니다. 이는 공간 전사체학 연구를 위한 새로운 인과 분석 프레임워크를 제공합니다.
Celcomen은 세 가지 핵심 가정에 기반을 두고 있습니다. ① 1차 이웃 간의 예상 유전자-유전자 상관관계는 관찰된 데이터와 정확히 일치해야 합니다. ② 동일한 공간 지점/셀 내에서 예상되는 유전자-유전자 상관관계는 관찰된 데이터와 정확히 일치해야 합니다. ③ 인과 충분성 가정: 연구된 유전자 쌍 사이에 측정되지 않은 공통 원인은 없습니다.
다음 그림과 같이:Celcomen은 추론 모듈(CCE)과 생성 모듈(SCE)의 두 부분으로 나뉩니다.

(a) 추론 모듈(CCE):유전자-유전자 관계는 공간적으로 분석된 전사체 데이터(공간 RNA-seq 데이터)에서 알아낼 수 있으며, 선택적으로 분리된 단일 세포 RNA-seq 데이터(분리된 scRNA-seq 데이터)에서도 알아낼 수 있습니다. 공간 데이터에서 강조된 세포-세포 쌍과 단일 세포 RNA-seq 데이터에서 개별 세포는 CCE가 세포 내(H′ab) 유전자-유전자 상호 작용과 세포 간(Hab) 유전자-유전자 상호 작용을 어떻게 구별할 수 있는지 보여줍니다.
(b) 생성 모듈(SCE):CCE가 학습한 유전자-유전자 관계는 세포 또는 유전자 교란 후의 반사실적 조직 행동을 시뮬레이션하는 데 사용됩니다.
* 반사실적 시나리오: 이는 다양한 가상적 조건에서 생물학적 조직의 가능한 행동을 연구하는 데 사용되는 방법으로, 주로 인과 추론, 개입 시뮬레이션 및 생물학적 모델링에 사용됩니다. 이는 핵심 요인(예: 유전자 녹아웃, 약물 개입, 외부 환경의 변화 등)이 변경되었을 때 생물학적 유기체의 행동이 실제로 관찰된 것과 어떻게 다를 수 있는지에 대한 가상 시나리오를 구성하는 것을 포함합니다.
연구 결과: Celcomen 모델은 인과 관계를 풀어내는 데 식별 가능합니다.
연구진은 자체 일관성 있는 합성 데이터와 실제 데이터에 대한 실험을 통해 인과 구조를 학습하고 인과 관계를 풀어내는 데 있어 셀코멘 모델의 식별 가능성을 검증했습니다.
Celcomen은 강력한 자기 일관성과 식별 가능성을 가지고 있습니다.
아래 그림에서 볼 수 있듯이, 합성 데이터 세트에서 Celcomen은 추론된 유전자-유전자 상호작용과 실제 데이터 간에 강력한 일관성을 지속적으로 보여줍니다. 이는 Celcomen이 강력한 자체 일관성을 가지고 있고 따라서 식별 가능성이 있음을 나타냅니다.
* 자기 일관성: 통계, 최적화, 머신 러닝에서 자기 일관성은 일반적으로 모델의 가정, 도출, 최적화 프로세스가 안정적인 솔루션으로 수렴될 수 있음을 의미합니다.
* 식별 가능성: 인과 관계의 모델 매개변수 또는 인과 효과가 인과 추론 모델에서 관찰된 데이터를 기반으로 고유하게 결정될 수 있는지 여부를 나타냅니다.

연구진은 또한 여러 인간 태아 비장의 공간 전사체 단면에 셀코멘 모델을 적용하여 실제 인간 데이터에 대한 식별 가능성을 확인했고, 두 유전자-유전자 상호작용 행렬 사이의 스피어만 상관 계수가 0.5~0.6 범위에 있음을 관찰했습니다. 더욱이, 포착된 유전적 상호작용은 알려진 생물학적 세포 내 및 세포 간 과정을 따르므로 세포 내 및 세포 간 기질에서 생물학적으로 타당합니다.
이는 셀코멘의 식별 가능성을 입증하며, 이론적이고 합성적인 데이터를 넘어선 안정성과 견고성을 확인시켜 주며 실제 인간 샘플에서도 관찰할 수 있습니다.
인과적 분리 능력: Celcomen은 내재적 및 외재적 전사체 변이의 근원을 성공적으로 풀어낼 수 있습니다.
연구진은 셀코멘이 세포 내부와 세포 간의 유전자 조절 프로그램을 풀어내는 능력(분리 능력)을 테스트했습니다. 연구진은 아래 그림에서 볼 수 있듯이, 실제 인간 임상 환경에 셀코멘을 적용하여 인간 신경교종(뇌암)의 단일 세포 분해능 공간 전사체 데이터 세트를 분석했습니다. 연구진은 셀코멘이 내재적, 외재적 전사체 변이의 근원을 성공적으로 밝혀낼 수 있었다는 것을 발견했습니다.

생체 내 공간적 반사실적 검증: Celcomen은 무작위 기준선보다 훨씬 더 나은 성능을 발휘합니다.
연구진은 셀코멘의 효과를 더욱 입증하기 위해 생체 내 전체 전사체 데이터 세트인 Perturbmap에 대한 벤치마크 테스트를 실시했습니다. 결과에 따르면 모든 병변에서 예측값과 생체 내 측정값 간의 스피어만 상관관계는 0.28~0.47 범위였습니다. 이러한 성과의 중요성을 평가하기 위해 연구진은 모델을 무작위 기준선과 비교했습니다. 여기서 Celcomen은 무작위로 섞은 데이터에서 실행되었습니다. 결과는 Celcomen이 아래 그림에서 볼 수 있듯이 p-값이 0.0079로 무작위 기준선보다 상당히 더 나은 성능을 보인다는 것을 보여줍니다(참조):

요약하자면, 본 연구에서 제안한 모델은 인과 추론을 통해 기계적 설명을 달성하는 새로운 길을 열어준다. 실험에서 입증된 바와 같이, 셀코멘 모델의 인과적 식별 가능성 덕분에 연구진은 높은 정확도로 신경망의 매개변수 값을 복구할 수 있습니다. 셀코멘의 발전은 생물의학 분야에 상당한 영향을 미쳤습니다. 예를 들어, 질병이 조직 손상을 일으키는 방식을 밝혀내고 치료의 이점에 대한 검증 가능한 가설을 세우는 데 도움이 되었습니다. 기술이 발전함에 따라 셀코멘의 가치는 계속해서 증가할 것이며, 질병 모델링과 기전적 이해가 향상될 것입니다.
인공지능이 공간 전사체학의 잠재력을 열어줍니다.
이 연구에서 얻은 관련 결과는 공간 전사체학의 또 다른 발전입니다. 공간 전사체학 기술은 최근 몇 년 동안 생물정보학 분야에서 이루어진 주요 혁신 중 하나입니다. 이 기술은 분자적 특징을 세부적이고 공간적으로 국소화하여 제공함으로써 생물의학 연구의 패러다임을 크게 바꾸어 생물학 연구자들이 전례 없는 해상도로 조직의 구조와 기능을 밝힐 수 있게 했습니다.
최근 몇 년 동안 공간 전사체학 기술은 급속한 발전을 이루었으며, 데이터는 지속적으로 축적되었습니다. 이를 근거로 2024년 8월에 게재된 "Nature Methods Special Issue Comment: Using the "Key" of Artificial Intelligence to Open the "Lock" of Spatial Omics"라는 논문에서는 다음과 같이 지적하고 있다.인공지능은 공간 오믹스의 잠재력을 최대한 활용하여 복잡한 데이터 세트의 통합을 촉진하고 새로운 생물학적 통찰력을 발견할 수 있는 잠재력을 가지고 있습니다.
구체적으로, AI는 공간 전사체학과 scRNA-seq의 통합을 용이하게 하여 연구자들이 단일 세포 수준에서 전사체 전체의 공간적 유전자 발현 프로파일을 측정할 수 있도록 해줍니다. 또한, AI는 공간 오믹스와 조직학적 영상 데이터를 통합하여 광범위한 오믹스 방식을 포괄하는 고해상도의 포괄적인 3차원 공간 조직 지도를 구축할 수 있습니다. 사용 가능한 데이터 세트의 수가 증가함에 따라 다중 모드 대규모 언어 모델(MM-LLM)을 생물의학 연구 및 정밀 의학 분야의 작업을 위해 공간 오믹스, 의료 영상 및 임상 텍스트 데이터에 대해 학습할 수 있습니다.
2023년 10월중국과학원 수학 및 시스템과학 연구소의 장시화 연구팀이 Nature Computational Science에 논문을 발표했습니다."다양한 조건, 기술, 발달 단계에 따른 공간 전사체 데이터 통합"이라는 제목의 연구 논문을 발표했습니다. 이 연구는 다양한 기술, 다양한 발달 시점 및 다양한 질병 상태에서 얻은 여러 생물학적 조직 슬라이스의 공간 전사체 데이터를 위한 새로운 통합 분석 도구인 STAligner를 확립했습니다. 공간 전사체 분석을 수행할 때 연구자들이 새로운 중요한 생물학적 통찰력을 발견하는 데 도움이 될 수 있습니다.
*원본 논문:
https://www.biorxiv.org/content/10.1101/2022.12.26.521888v1.full.pdf
공간 전사체 데이터 분석이 직면한 다각적인 과제를 해결하기 위해 2024년 7월,청화대학교 생명과학대학 장창펑(张强峰) 부교수 연구팀/구조생물학 첨단혁신센터/청화-베이징대학교 생명과학공동센터"세포-세포 상호작용을 인식하는 세포 임베딩을 통한 단일 세포 해상도 공간 전사체 데이터의 조직 모듈 발견"이라는 제목의 연구 논문이 저널 Cell Systems에 온라인으로 게재되었습니다. 본 연구에서는 그래프 자동 인코더 딥러닝 프레임워크를 기반으로 한 인공지능 알고리즘 SPACE(spatial transcriptomics data analysis via "interaction-aware" cell embedding)를 개발하였으며, 이를 통해 단일 세포 분해능의 공간 전사체 데이터에서 공간 세포 유형을 식별하고 조직 모듈을 발견할 수 있으며, 대규모 공간 전사체 연구에 활용될 수 있습니다.
앞으로 AI의 강력한 컴퓨팅 파워와 딥러닝 알고리즘을 활용하여 연구자들은 공간 전사체학의 새로운 차원을 열고, 질병 연구, 약물 개발, 개인 맞춤 의학의 효율성을 크게 개선하고, 과학자들이 전례 없는 정밀도로 생물학적 시스템의 공간적 이질성을 탐구할 수 있도록 하여 획기적인 과학적 발견을 이룰 것으로 기대됩니다.
참고문헌:
1.https://openreview.net/forum?id=Tqdsruwyac
2.https://www.thepaper.cn/newsDetail_forward_28521641
3.https://www.cas.cn/syky/202310/t20231020_4981872.shtml