Cell 저널에 게재되었습니다! 청화대 장창풍(张强峰) 연구팀이 개발한 SPACE 알고리즘은 유사 도구 중 가장 뛰어난 조직 모듈 발견 능력을 보유하고 있다.

다세포 생물의 세포는 동일한 유전체를 공유하지만, 주변 미세환경에서 이웃 세포와 내부 유전자 조절 네트워크와 외부 신호 교환의 차이로 인해 형태, 유전자 발현, 기능 면에서 상당한 다양성을 보입니다. 세포 유형 정보를 조직 내의 공간적 위치와 연관시키기 위해 공간 전사체학(ST) 기술이 생겨났습니다.이 기술은 고해상도 전사체 데이터를 얻을 수 있을 뿐만 아니라, 다양한 세포 아형이나 전사 상태의 공간적 분포와 위치 관계를 결정하기 위한 위치 정보와도 대응할 수 있습니다. 이는 생명 구조, 개체 발달, 생명 진화를 재이해하고 질병을 정의하는 데 중요한 역할을 합니다.
최근 몇 년 동안 공간 전사체학 기술의 지속적인 발전으로 연구자들은 조직 내 세포의 공간적 위치 정보를 유지하면서도 단일 세포 수준의 분해능으로 세포의 유전자 발현 프로파일을 얻을 수 있게 되었습니다. 이러한 공간 정보를 효과적으로 사용하여 공간 세포 하위 유형을 식별하고 조직 모듈을 발견하는 방법은 공간 전사체 데이터 분석의 핵심 과제가 되었습니다.
현재 공간 전사체 데이터 분석은 다음과 같은 두 가지 과제에 직면해 있습니다. 첫째, 공간적 세포 유형을 식별하기 위해 많은 연구에서 세포 유전자 발현 프로파일만 사용하고 세포의 공간적 위치 정보는 무시합니다. 최근 몇 년 동안의 연구에 따르면 원래는 동질적이라고 생각되었던 세포 유형이 조직 내에서의 위치에 따라 여러 하위 유형으로 더 세분화될 수 있다는 사실이 밝혀졌습니다. 둘째, 모발 유형의 조직 모듈의 경우, 조직을 구성하는 다양한 세포의 유전자 발현 특성이 매우 이질적일 수 있기 때문에, 기존 분석 방법에서는 단일 세포 해상도 공간 전사체 데이터에서 세포 유형의 이질성을 충분히 활용하지 못했습니다.
이를 바탕으로,청화대학교 생명과학대학 장창펑(张强峰) 부교수 연구팀/구조생물학 첨단혁신센터/청화-베이징대학교 생명과학공동센터"세포-세포 상호작용을 인식하는 세포 임베딩을 통한 단일 세포 해상도 공간 전사체 데이터에서 조직 모듈 발견"이라는 제목의 연구 논문이 최근 Cell Systems 저널에 온라인으로 게재되었습니다.
이 연구에서는 그래프 자동 인코더 딥 러닝 프레임워크를 기반으로 한 인공 지능 알고리즘 SPACE("상호작용 인식" 세포 임베딩을 통한 공간 전사체 데이터 분석)를 개발했습니다.단일 세포 분해능의 공간 전사체 데이터로부터 공간 세포 유형을 식별하고 조직 모듈을 발견하는 능력은 대규모 공간 전사체 연구에 사용될 수 있습니다.
연구 하이라이트:
* 단일 세포 분해능에서 공간 전사체 데이터로부터 공간 세포 유형을 식별하고 조직 모듈을 발견할 수 있는 AI 기반 공간 전사체 분석 도구인 SPACE를 개발했습니다.
* SPACE는 특히 여러 세포 유형을 포함하는 복잡한 조직에서 세포 유형 식별 및 조직 모듈 발견에 있어 다른 도구보다 훨씬 뛰어난 성능을 발휘합니다.
* SPACE는 공간적으로 인접한 세포 간의 상호 작용이 세포 유형 및 조직 모듈의 생물학적 기능에 어떻게 영향을 미치는지 이해하기 위해 대규모 공간 전사체 연구에 사용될 수 있습니다.

서류 주소:
https://www.cell.com/cell-systems/fulltext/S2405-4712(24)00124-8
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 여러 데이터 세트가 SPACE 기능을 검증합니다.
SPACE의 역량을 검증하기 위해 본 연구에서는 여러 데이터 세트를 사용하였으며, 그 내용은 다음과 같습니다.
데이터세트 다운로드 주소:
https://go.hyper.ai/CBJfX
MERFISH 마우스 PMC 데이터 세트
MERFISH 마우스 PMC 데이터 세트의 경우, 로그 변환된 정규화된 세포-유전자 행렬을 Brain Image Library에서 얻었고, "기타"로 표시되거나 주요 샘플 영역 외부에 위치한 세포는 제거되었습니다.
데이터 세트 링크:
STARmap 마우스 PLA 데이터 세트
STARmap 마우스 PLA 데이터 세트의 경우, 정규화된 세포-유전자 행렬은 원래 논문에서 제공되었으며 로그 변환되었습니다.
데이터 세트 링크:
https://drive.google.com/file/d/1DDCowUuZ7PPFUSZsjvSqntWkYJMjf1Na/view?usp=sharing
MERFISH 마우스 AB 데이터 세트
MERFISH 마우스 AB 데이터 세트의 경우, 유전자 개수 행렬은 CELL x GENE 라이브러리에서 얻었습니다. 세포당 총 개수는 10,000으로 정규화되었고, 정규화된 세포-유전자 행렬은 로그 변환되었습니다.
데이터 세트 링크:
https://cellxgene.cziscience.com/collections/31937775-06024e52-a799-b6acdd2ba2e
MERFISH 마우스 WB 데이터 세트
MERFISH 마우스 WB 데이터 세트의 경우, 로그 변환된 정규화된 세포-유전자 행렬을 GitHub 저장소에서 가져왔습니다.
데이터 세트 링크:
https://github.com/AllenInstitute/abc_atlas_access
제니엄 인간 BC 데이터 세트
Xenium 인간 BC 데이터 세트의 경우, 유전자 개수 행렬은 10x Genomics 웹사이트에서 얻었습니다. 세포당 총 개수는 10,000으로 정규화되었고, 정규화된 세포-유전자 행렬은 로그 변환되었습니다.
데이터 세트 링크:
https://www.10xgenomics.com/products/xenium-in-situ/preview-dataset-human-breast
CosMx 인간 NSCLC 데이터 세트
CosMx 인간 NSCLC 데이터 세트의 경우, log-변환된 정규화된 세포-유전자 행렬을 nanoString 웹사이트에서 얻었습니다.
데이터 세트 링크:
https://nanostring.com/products/cosmx-spatial-molecular-imager/ffpe-dataset/nsclc-ffpe-dataset
Visium 인간 뇌 데이터 세트
Visium 인간 뇌 데이터 세트의 경우, 유전자 개수 행렬은 Bioconductor 패키지인 spatialLIBD를 사용하여 얻었습니다. 각 Visium 인간 뇌 데이터 세트 샘플에서 상위 3,000개의 고변동성 유전자는 Python 패키지 SCANPY(v1.9.1)의 scanpy.pp.highly_variable_genes() 함수(flavor = "seurat_v3")를 사용하여 식별되었습니다. 그런 다음 세포당 총 개수를 10,000으로 정규화하고 정규화된 세포-유전자 행렬을 로그 변환했습니다.
데이터 세트 링크:
https://bioconductor.org/packages/release/data/experiment/html/spatialLIBD.html
모델 아키텍처: 세포 간 상호 작용을 인식하는 세포 내장 모델
SPACE는 그래프 자동 인코더 프레임워크를 사용하여 공간 전사체 데이터에서 각 세포의 유전자 발현 정보와 공간적 이웃 세포와의 상호작용 정보를 기술하는 저차원 세포 임베딩을 학습합니다(따라서 세포 임베딩을 세포-세포 상호작용 인식 세포 임베딩이라고 합니다). 이러한 세포 임베딩을 기반으로 SPACE는 클러스터링 알고리즘을 사용하여 공간 세포 하위 유형을 식별하고 조직 모듈을 발견합니다.
건축의 관점에서 보면,SPACE 모델은 인코더(3층 그래프 주의 네트워크), 이웃 그래프 디코더, 유전자 발현 디코더의 세 부분으로 구성됩니다.다음 그림은 모델의 전반적인 프레임워크를 보여줍니다.

먼저, SPACE는 공간적 근접성을 기반으로 각 셀을 가장 가까운 k개의 이웃 셀에 연결하여 인접 그래프를 구성합니다. 그런 다음 SPACE는 3층 그래프 주의 네트워크(GAT)를 인코더로 사용하여 유전자 발현 프로파일 입력과 인접 그래프를 저차원 세포 표현으로 변환합니다. 이후 이를 사용하여 두 개의 독립적인 디코더 네트워크를 통해 각 세포의 유전자 발현 프로파일과 인접 그래프를 재구성합니다.
GAE 모델을 훈련하기 위해 SPACE는 자기 지도 학습을 사용하여 유전자 발현 프로필과 인접 그래프의 전체 재구성 손실을 최소화하는 것을 목표로 합니다. 학습된 세포 표현은 다양한 클러스터링 알고리즘을 사용하여 세포 유형 식별 및 조직 모듈 검색에 사용될 수 있습니다.
이전에 개발된 딥 러닝 도구는 그래프 합성 신경망(GCN)(예: SpaGCN, SpaceFlow, GraphST 및 SEDR)이나 그래프 어텐션 자동 인코더(예: STAGATE)를 사용하여 세포와 이웃 세포의 유전자 발현 프로필을 집계하여 조직 모듈을 발견하는 "이웃 인식" 임베딩을 생성했습니다. SPACE는 세 가지 주요 면에서 이러한 도구와 다릅니다.
첫째, SPACE는 동일한 저차원 세포 표현(두 개의 독립적인 디코더를 통해)으로부터 유전자 발현 프로파일과 인접 그래프를 모두 재구성해야 합니다.이러한 설계를 통해 SPACE는 분석된 세포와 개별 이웃 세포의 유전자 발현 프로필과 공간적 상호 작용을 기억할 수 있습니다. 이와 대조적으로 다른 방법은 인접 그래프를 입력으로 받지만 그래프를 재구성하지 않습니다. 이러한 차이점을 강조하기 위해 본 연구에서는 SPACE가 생성한 세포 임베딩을 "세포-세포 상호작용 인식 세포 임베딩"이라고 부릅니다.
두 번째로, SPACE는 유전자 발현 프로필과 인접 그래프 재구성 손실의 상대적 가중치를 결정하기 위해 수용 도메인 비율을 정의합니다.이러한 조정 가능한 비율을 통해 SPACE는 각 분석 세포의 유전자 발현 프로필이나 공간적으로 인접한 세포의 상호 작용을 강조하여 특정 연구 요구 사항에 맞춰 학습 초점을 맞출 수 있습니다.
셋째, SPACE는 또한 GAT 인코더의 주의 메커니즘을 사용하여 이웃 정보 집계 프로세스 동안 각 이웃의 가중치를 적응적으로 학습합니다.이 접근 방식은 유전자 발현 프로필을 재구성할 때 다양한 이웃의 각각의 기여도를 자동으로 고려합니다.
연구 결과: SPACE는 세포 유형 식별 및 조직 모듈 발견에서 다른 유사 도구보다 우수한 성능을 보입니다.
SPACE는 여러 공간 전사체 데이터 세트를 사용하여 테스트되었으며, SPACE에서 발견된 세포 군집이 수동으로 주석이 달린 조직 구조와 공간 분포 특성 면에서 유사하다는 것을 보여주었습니다.
SPACE가 공간적으로 유용한 세포 유형을 식별하는 능력 평가
우리는 처음에 마우스 1차 운동 피질(PMC)의 MERFISH 특성화된 ST 데이터 세트(슬라이스 153부터 시작)를 사용하여 SPACE가 세포 유형을 식별하는 능력을 조사했습니다. 결과는 다음과 같습니다SPACE에서 확인된 세포 유형은 원래 연구에서 보고된 세포 유형과 잘 일치했습니다.아래 그림과 같이; 또한, SPACE는 특정 세포 유형(예: 성상세포 및 과소돌기세포)에 대해 더 높은 해상도의 세포 유형 주석을 제공합니다.

MERFISH 마우스 PMC 데이터 세트의 153번째 슬라이스에 있는 모든 세포의 공간 정보에서 관련 세포 유형과 원래 세포 유형 간의 대응 관계를 보여주는 Sankey 다이어그램
연구자들은 그 후 확인된 아형의 성상세포(피질의 신경교세포)와 과소돌기세포(중추신경계의 미엘린 덮개 세포)에 더욱 집중했습니다. 성상세포는 한때 동질적인 세포 유형으로 여겨졌지만, 최근 ST 연구에 따르면 성상세포가 뇌의 각 영역에서 서로 다른 기능을 한다는 것이 보고되었습니다.

MERFISH 마우스 PMC 데이터 세트의 슬라이스 153에 있는 공간 정보 관련 성상세포 하위 유형. 세포는 성상세포 하위 유형별로 표시되어 있으며, 밝은 회색 점은 다른 세포를 나타냅니다. 점선은 상부, 심부, 백색질을 나타냅니다.
실험에서 SPACE는 PMC 슬라이스 153에서 위 그림과 같이 세 가지 다른 하위 유형을 발견했으며, 각 하위 유형은 서로 다른 피질 층에 공간적으로 분포되어 있었습니다. SPACE는 별모세포와 유사하게 과아교세포를 뚜렷한 공간 분포 패턴을 갖는 세 가지 공간 정보 하위 유형으로 분류합니다.

연구진은 또한 ST의 또 다른 기술인 STARmap으로 생성된 마우스 태반(PLA) 데이터 세트에 SPACE를 적용했습니다. 결과에 따르면 SPACE는 세포를 16가지 세포 유형으로 분류했는데, 이는 위에 표시된 원래 연구에서 사용된 세포 유형과 잘 일치했습니다. SPACE는 두 가지 당영양막세포 아형을 식별했는데, 두 세포 모두 원래 연구에서는 "거대영양막세포 2"로 주석이 달려 있었습니다. 두 하위 유형은 태반의 서로 다른 부위에 국한되어 있으며, 서로 이웃하여 상호작용하는 세포 유형도 서로 다릅니다.
요약하자면, 서로 다른 ST 방법과 조직을 기반으로 한 두 개의 독립적인 데이터 세트를 분석한 결과는 다음과 같은 결론을 뒷받침합니다.SPACE는 ST 데이터 세트의 공간 정보를 기반으로 생물학적으로 구별되는 세포 유형을 식별할 수 있습니다.
세포 유형 식별에서 SPACE의 성능 평가
연구진은 공간 전사체 데이터에서 세포 유형을 식별하기 위한 두 가지 현재 도구인 BANKSY와 FICT와 SPACE를 비교했습니다. 이 두 도구는 유전자 발현뿐 아니라 공간 정보도 고려합니다. 연구진은 분석에 세포 유형 식별에 널리 사용되는 도구인 SCANPY도 포함시켰습니다. 하지만 SCANPY는 유전자 발현만을 고려합니다.
비교를 위해 연구진은 이전에 언급한 MERFISH 마우스 PMC 데이터 세트와 STARmap 마우스 PLA 데이터 세트를 사용했습니다. 아래 그림에서 보듯이, SPACE는 다양한 공간 정보를 바탕으로 한 별모양 세포와 과아교세포 하위 유형을 식별할 수 있지만, SCANPY와 FICT는 피질층을 분해한 공간 분포 패턴을 바탕으로 별모양 세포와 과아교세포 하위 유형을 정의할 수 없습니다.
STARmap 마우스 PLA 데이터 세트의 경우, SPACE와 BANKSY는 두 가지 당영양세포 아형을 성공적으로 식별했지만, SCANPY와 FICT는 당영양세포 아형을 식별하지 못했습니다. 이는 두 당영양세포 아형 주변 세포 유형에 명백한 차이가 있기 때문일 수 있습니다.

이러한 결과는 집합적으로 다음을 나타냅니다.SPACE는 ST 데이터에서 공간적 정보를 제공하는 세포 유형을 구별하는 데 현재 사용 가능한 도구보다 성능이 뛰어납니다.
SPACE는 조직 모듈 발견에서 최첨단 도구를 능가합니다.
공간 전사체학 연구에서 중요한 과제 중 하나는 주어진 조직 내의 조직 모듈을 발견하는 것입니다. 이와 관련하여 SPACE의 역량을 평가하기 위해 연구진은 SPACE를 SEDR, SpaGCN, STAGATE, BANKSY, SpaceFlow, GraphST, Schürch 등의 방법, 그리고 SCANPY와 SPACE_ng와 비교했으며, 앞서 언급한 ST 데이터 세트 중 두 가지(MERFISH 마우스 PMC 데이터 세트와 STARmap 마우스 PLA 데이터 세트)와 주석이 달린 조직 모듈이 있는 세 가지 추가 데이터 세트(MERFISH 마우스 노령 뇌(AB) 데이터 세트, MERFISH 마우스 전체 뇌(WB) 데이터 세트, Xenium 인간 유방암(BC) 데이터 세트)를 사용했습니다. 이는 다양한 조직과 조건에서 얻은 ST 데이터를 나타냅니다.
전반적인,SPACE는 5개 데이터세트 중 2개에서 경쟁 도구보다 큰 폭으로 우수한 성능을 보였고, 나머지 3개 데이터세트에서는 가장 성능이 좋은 도구와 거의 비슷한 수준의 성능을 보였습니다(각각의 최고 도구 대비).다음 그림과 같이:

공간 전사체 데이터 분석의 과제 극복
공간 전사체학 기술은 최근 몇 년 동안 생물정보학 분야에서 이루어진 주요 혁신 중 하나이며, 2020년 Nature Method에서 올해의 기술로 선정되었습니다.본 기술은 단일 세포 시퀀싱 기술이 개별 세포 간의 위치 관계를 측정하기 어렵다는 단점을 보완하여, 다수의 세포의 공간적 위치와 세포 내 전사체 수를 동시에 측정함으로써, 여러 세포 간의 상호작용을 이해할 수 있는 새로운 데이터 기반을 제공합니다. 공간 전사체 데이터에 대한 기본 분석 방법을 개발하는 것은 현재 생물정보학 분야의 최전선 문제 중 하나입니다.
세포 공간적 위치 정보와 분자적 특성 스펙트럼을 결합함으로써 새로운 유형의 다중 모드 고처리량 데이터 리소스가 생성되었는데, 이는 효율적인 데이터 분석 및 정보 마이닝 방법을 개발하는 데 많은 과제를 제기합니다. 인공지능은 이러한 과제를 해결하기 위한 새로운 아이디어를 제공합니다.

2022년 7월, 상하이 교통대학교 전자정보 및 전기공학과 자동화학과의 션훙빈 교수와 위안예 부교수 연구팀은 네이처의 자회사인 네이처 컴퓨테이션얼 사이언스에 "그래프 신경망을 이용한 공간 전사체 데이터의 세포 클러스터링"이라는 제목의 연구 논문을 발표했습니다.
논문 링크:https://www.nature.com/articles/s43588-022-00266-5
본 논문에서는 그래프 합성 신경망을 기반으로 한 공간 전사체 세포 클러스터링 방법(공간 전사체를 위한 세포 클러스터링, CCST)을 제안한다.이는 공간 전사체 데이터 처리를 위한 새로운 솔루션을 제공하며, 유전자 발현의 공간적 분포 모델링, 세포 역학 분석, 핵심 세포 하위 유형 상호작용 및 분자적 메커니즘 발견을 포함하여 생명과 의학 분야의 다층적 기본 문제 연구에 적용될 수 있는 잠재력을 가지고 있습니다.
2023년 4월존스홉킨스 대학의 연구팀은 SpaceMarkers를 개발했습니다.이는 ST 데이터의 잠재 공간 분석을 사용하여 세포 간 상호작용의 분자적 변화를 추론할 수 있는 생물정보학 알고리즘입니다. 연구진은 이 접근 방식을 사용하여 전이성, 침습성 및 전구 병변에서 종양-면역 상호작용의 분자적 변화를 추론하고 Visium 공간 전사체 데이터를 사용하여 면역 요법에 대한 반응을 추론했습니다.
해당 연구는 "잠재 공간을 통해 종양 미세환경 내 분자 상호작용의 공간적 풍경을 밝히다"라는 제목으로 Cell Systems에 게재되었습니다.
올해 4월, "BANKSY가 확장 가능한 공간 오믹스 데이터 분석을 위해 세포 유형과 조직 도메인 분할을 통합한다"라는 제목의 연구 보고서가 국제 학술지 Nature Genetics에 게재되었습니다.싱가포르의 A*STAR 연구소와 다른 기관의 과학자들은 BBANKSY(Neighborhood Kernel과 Spatial Yardstick을 이용한 집계 구축)라는 알고리즘을 보고했습니다.혁신적인 공간 오믹스 데이터 분석 도구로서, 이 알고리즘의 주요 기능은 공간 오믹스 데이터에서 세포를 유형과 조직 도메인에 따라 효과적으로 분류하는 것입니다.
논문 링크:https://www.nature.com/articles/s41588-024-01664-3

분명 미래에 인공지능 기술의 지원을 받으면 공간 전사체학 기술은 조직 내 다양한 세포 유형의 공간적 분포, 다양한 세포 집단 간의 상호 작용을 더 잘 밝혀내고 다양한 조직 영역의 유전자 발현 지도를 그릴 수 있을 것입니다. 이는 질병과 암의 발생 메커니즘을 이해하는 데 광범위한 응용 가치를 지닙니다.
참고문헌:
1.https://www.cell.com/cell-systems/fulltext/S2405-4712(24)00124-8#secsectitle0030
2.https://www.tsinghua.edu.cn/info/1175/112190.htm
3.https://news.bioon.com/article/367a820e60b9.html
4.https://www.sohu.com/a/677912398_12