HyperAI초신경

도쿄대 연구팀은 사전 정렬 없이 일괄 효과를 제거하기 위해 딥러닝 프레임워크 STAIG를 개발해 종양 미세환경에서 자세한 유전 정보를 밝혀냈다.

特色图像

생물학적 조직은 특정한 공간적 구성을 통해 중요한 기능을 수행하는 여러 세포 유형으로 구성된 복잡한 네트워크입니다. 최근 몇 년 동안 10x Visium, Slide-seq, Stereo-seq, STARmap과 같은 공간 전사체학(ST) 기술이 발전하면서 생물학자들은 공간 구조 내에서 유전 데이터를 매핑하여 다양한 질병에 대한 더 깊은 통찰력을 얻을 수 있게 되었습니다.

그러나 ST 기술은 균일한 유전자 발현과 조직학적 특징을 보이는 공간적 영역을 식별하는 데 크게 의존합니다. 현재,두 가지 주요 식별 방법이 있습니다: 비공간 클러스터링 및 공간 클러스터링 방법비공간적 클러스터링 방법은 유전자 발현에 기반한 클러스터링만 수행하므로 종종 일관성 없는 클러스터링 결과가 발생합니다. 공간 클러스터링 방법은 그래프 합성 모델을 사용하여 유전자 및 공간 정보를 통합하지만 ST 데이터를 그래프 구조로 변환할 때 인위적으로 정의된 거리 표준에 의존하므로 편향이 발생할 수 있습니다. 동시에 조직학적 이미지를 사용하는 방법 역시 염색 품질의 변화에 취약하기 때문에 어려움에 직면합니다. 또한, 대부분의 기존 방법을 일괄적으로 통합하려면 좌표를 수동으로 정렬하거나 추가 도구에 의존하는 등 수동 개입이 여전히 필요합니다.

이러한 과제를 극복하기 위해일본 도쿄대학교 의학연구소 연구팀은 STAIG(Spatial Transcriptomics Analysis with Image-Assisted Graph Comparative Learning)라는 딥러닝 프레임워크를 제안했습니다.정렬 없이 유전자 발현, 공간 데이터 및 조직학적 이미지를 통합하는 기능.

STAIG는 사전 학습을 위해 대규모 조직학 데이터 세트에 의존하지 않고 자체 감독 모델을 통해 헤마톡실린 및 에오신(H&E) 염색 이미지에서 특징을 추출합니다. 또한 STAIG는 훈련 중에 그래프 구조를 동적으로 조정하고 조직학적 이미지 정보를 사용하여 동일한 음성 샘플을 선택적으로 제외함으로써 초기 구성으로 인해 발생한 편향을 줄입니다.

마지막으로, STAIG는 로컬 비교를 통해 유전자 발현의 공통점을 식별하여 수동 좌표 정렬이 필요 없이 엔드투엔드 배치 통합을 가능하게 하고 배치 효과를 효과적으로 줄입니다. 연구자들은 다양한 데이터세트에 대해 STAIG를 평가했습니다.연구 결과에 따르면, 이 기술은 공간적 영역 식별에 우수한 성능을 보였으며 종양 미세환경에서 세부적인 공간적, 유전적 정보를 밝혀내어 복잡한 생물학적 시스템에 대한 이해를 증진하는 데 도움이 될 수 있는 것으로 나타났습니다.

관련 결과는 "STAIG: 도메인 탐색 및 정렬 없는 통합을 위한 이미지 지원 그래프 대조 학습을 통한 공간 전사체 분석"이라는 제목으로 Nature Communications에 게재되었습니다.

연구 하이라이트:

* STAIG 모델은 사전 정렬 없이 조직 절편의 통합을 가능하게 하며 일괄 효과를 제거합니다.

* STAIG 모델은 조직학 이미지가 포함되어 있든 아니든 다양한 플랫폼에서 획득한 데이터에 적용 가능합니다.

* 연구자들은 STAIG가 높은 정확도로 공간 영역을 식별하고 종양 미세환경에 대한 새로운 통찰력을 제공하며 공간적 생물학적 복잡성을 분석하는 데 있어 광범위한 잠재력을 가지고 있음을 입증했습니다.

서류 주소:
https://www.nature.com/articles/s41467-025-56276-0
본 연구에 사용된 데이터세트의 다운로드 주소:
https://go.hyper.ai/m5YC4

데이터 세트: 다양한 플랫폼의 ST 데이터 세트 및 조직학 이미지 모음

연구자들은 다양한 플랫폼에서 공개적으로 이용 가능한 ST 데이터 세트와 조직학 이미지를 다운로드했습니다.아래 그림과 같습니다. ST 데이터 세트에는 인간의 배외측 전두엽 피질(DLPFC) 데이터 세트, 인간 유방암 데이터 세트, 마우스 뇌 데이터 세트, Slide-seqV2 데이터 세트, STARmap 데이터 세트 등이 포함됩니다.

데이터세트 다운로드 주소:
https://go.hyper.ai/m5YC4

H&E 염색 이미지, 수동 주석 및 STAIG 대 기준 방법

* 10x Visium 플랫폼의 인간 배외측 전두엽 피질(DLPFC) 데이터 세트에는 3명의 개인으로부터 얻은 12개 슬라이스가 포함되어 있으며, 각 슬라이스는 10μm와 300μm 간격으로 4개 슬라이스를 제공하고, 각 슬라이스의 포인트 수는 3,498~4,789입니다. 이러한 슬라이스는 피질층 L1–L6 및 백질(WM)로 수동으로 주석이 달렸습니다.

* 인간 유방암 데이터 세트에는 3,798개의 포인트가 포함되어 있습니다.

* 마우스 뇌 데이터 세트에는 각각 2,695개와 3,355개의 점을 포함하는 전방 및 후방의 두 개의 슬라이스가 포함되어 있습니다.

* 다니오 흑색종의 경우, 연구자들은 각각 2,179개와 2,677개의 반점이 포함된 A구역과 B구역을 분석했습니다.

* 앙상블 실험에는 DLPFC와 마우스 뇌 데이터 세트가 사용되었습니다. 마우스 후각구의 Stereo-seq 데이터 세트에는 14μm의 해상도를 갖춘 19,109개의 포인트가 포함되어 있습니다.

* 쥐 해마(중앙 1/4 반경에서 18,765개 지점)와 쥐 후각구(19,285개 지점)를 포함하는 10μm 해상도의 Slide-seqV2 데이터 세트

* STARmap 데이터 세트에는 1,207개의 포인트가 포함되어 있습니다.

* MERFISH 데이터 세트의 경우, 인간의 MTG에는 3,970개의 점이 포함되어 있는 반면, 마우스 1과 마우스 2의 VIS 영역에는 각각 5,995개와 2,479개의 점이 포함되어 있습니다.

모델 아키텍처: 공간 전사체 분석을 위한 이미지 지원 그래프 대비 학습

아래 그림은 그래프 대조 학습과 고성능 특징 추출을 결합하여 유전자 발현, 공간 좌표 및 조직학적 이미지를 통합하는 딥 러닝 프레임워크인 STAIG의 전반적인 프레임워크를 설명합니다. 6개의 모듈로 구성되어 있습니다.

STAIG 프레임워크 개요

먼저, 아래 그림의 a 부분에서 볼 수 있듯이, 노이즈와 불균일한 조직 염색의 영향을 줄이기 위해 STAIG는 먼저 조직학적 이미지를 데이터 포인트의 공간적 위치에 맞춰 작은 패치(스팟 이미지 패치)로 나눈 다음 대역 통과 필터를 사용하여 이미지를 최적화합니다. 이미지 임베딩 특징은 Bootstrap Your Own Latent(BYOL) 자기 지도 모델을 통해 추출되고, 인접 행렬은 데이터 포인트 간의 공간적 거리를 기반으로 구성됩니다.

각 슬라이스에는 공간 좌표, 유전 데이터, 선택적 헤마톡실린 및 에오신 염색 이미지가 포함된 지점이 포함됩니다.

다음 그림의 b 부분에서 볼 수 있듯이, STAIG는 다양한 조직 단면의 데이터를 통합하기 위해 수직적 스태킹 방법을 사용하여 여러 조직 단면의 특징을 내장합니다.

여러 슬라이스의 경우 각 슬라이스의 이미지 임베딩이 수직으로 병합됩니다.

아래 그림의 c 부분에서 보인 것처럼, 각 슬라이스의 인접 행렬은 대각선 배치 방법을 사용하여 병합되어 통합 인접 행렬을 형성하고, 이를 사용하여 유전자 발현 데이터를 노드 정보로 하는 그래프 구조를 구성합니다.

각 부분의 인접 행렬은 대각선으로 결합되어 포괄적인 인접 행렬을 형성합니다.

아래 그림의 d 부분에서 보인 것처럼, 모서리로 연결된 측정점에 대해 이미지 임베딩 공간에서 거리가 계산되고, SoftMax 함수를 사용하여 이 거리를 무작위 모서리 제거 확률로 변환합니다. 이를 바탕으로 원래 그래프는 두 라운드의 무작위 에지 제거(에지 무작위 제거)를 거쳐 두 개의 향상된 뷰를 생성합니다. 그런 다음, 이러한 뷰의 노드 피처는 무작위로 마스크됩니다.

생성된 두 개의 향상된 뷰의 노드 기능은 무작위로 마스크됩니다.

그런 다음 그림의 e 부분에서 볼 수 있듯이 증강된 뷰는 공유 그래프 신경망(GNN)에 의해 처리되고 이웃 대조 목적에 따라 안내됩니다. 이 목적에 따라 이웃 노드는 서로 더 가까워지고 이웃하지 않는 노드는 두 그래프 뷰에서 더 멀어집니다.

증강된 뷰는 공유 그래프 신경망을 통해 처리됩니다.

마지막으로, 그림 f에 표시된 것처럼 훈련된 GNN은 공간적 영역을 식별하고 연속적인 조직 섹션 간의 배치 효과를 최소화하기 위해 임베딩을 생성합니다.

GNN에서 얻은 임베딩 결과를 공간 영역 인식 및 통합에 활용

연구 결과: STAIG는 다양한 조건에서 우수한 성능을 보여줍니다.

연구팀은 STAIG를 다른 최첨단 ST 기술과 비교하기 위해 광범위한 벤치마크 평가를 수행했습니다.결과는 STAIG가 다양한 조건에서 뛰어난 성능을 보인다는 것을 보여줍니다.

뇌 영역 인식 성능 평가

연구진은 STAIG의 조직 영역 인식 성능을 평가하기 위해 STAIG를 Seurat, GraphST, DeepST, STAGATE, SpaGCN, SEDR, ConST, MuCoST, stLearn을 포함한 기존 방법과 비교했습니다. 성과 평가 지표에는 다음이 포함됩니다.

* 조정된 랜드 지수(ARI) 및 정규화된 상호 정보(NMI)(수동으로 주석이 달린 데이터 세트의 경우).

* 실루엣 계수(SC) 및 데이비스-볼딩 지수(DB)(다른 데이터 세트의 경우).

① 인간 뇌 데이터 세트의 성능

전반적인,STAIG는 인간의 뇌 데이터 세트에서 가장 좋은 성과를 보였습니다.다음 그림에서 볼 수 있듯이 가장 높은 중앙값 ARI(0.69)와 NMI(0.71)가 달성되었습니다.

12개 DLPFC 슬라이스에 대한 9가지 방법의 조정된 랜드 지수(ARI)와 정규화된 상호 정보(NMI)의 상자 그림

비교해 보면, 기존 방법의 성과는 좋지 않습니다. stLearn은 일부 지점을 잘못 판단하고 일부 레이어를 놓칩니다. GraphST의 ARI는 0.64, NMI는 0.73이지만 L4 및 L5 계층의 위치에 큰 편차가 있습니다. 다른 방법의 ARI는 0.25~0.57이고 NMI는 0.42~0.69인데, 이는 주로 층 비율 식별이 부정확하기 때문입니다.

② 마우스 뇌 데이터 세트의 성능

아래 그림과 같이 마우스 후뇌 데이터 세트에서STAIG는 소뇌 피질과 해마를 성공적으로 식별했고, 아몬뿔(CA)과 치아상회를 더욱 구별했습니다.Allen 마우스 뇌 지도 주석과 매우 일치함; 수동 주석이 없음에도 불구하고 STAIG는 여전히 가장 높은 SC(0.31)와 가장 낮은 DB(1.11)를 달성하여 우수한 클러스터링 성능을 나타냈습니다.

마우스 후부 뇌 조직의 H&E 염색 이미지, Allen 참조 아틀라스의 해부학적 주석 및 STAIG의 클러스터링 결과

아래 그림과 같이 마우스 전뇌 데이터 세트에서STAIG는 후각구와 등쪽 담황색 부분을 정확하게 분할했습니다.Long 등의 수동 주석을 참조한 후 ARI는 0.44, NMI는 0.72에 도달했으며, 두 값 모두 가장 높은 값이었습니다.

Long et al.의 수동 주석 STAIG의 ARI 히스토그램과 마우스 전방 조직의 기준 방법

이미지 특징 추출의 효과

연구진은 이미지 특징의 영향을 알아보기 위해 KNN 알고리즘을 사용하여 STAIG가 추출한 이미지 특징을 다른 방법(stLearn, DeepST, ConST)을 통해 추출한 이미지 특징과 비교했습니다.

① 뇌 조직 절편 분석

아래 그림과 같이 슬라이스 #151507을 예로 들면, stLearn의 이미지 특징은 염색 강도에 의해 심각하게 영향을 받아 실제 계층적 주석과 일치하지 않습니다. DeepST와 ConST는 딥러닝을 사용하지만 뇌 조직의 복잡한 질감 특징을 정확하게 포착하지 못합니다. STAIG의 특징 추출 결과는 수동으로 주석을 단 수준과 매우 일치하지만, 일부 경계는 여전히 약간 모호하지만 염색 차이의 영향을 거의 받지 않습니다.

LPFC 슬라이스 #151507의 H&E 염색 이미지, 수동 주석 및 이미지 특징에 기반한 KNN 클러스터링 결과, STAIG를 세 가지 이미지 기반 방법(stLearn, DeepST, ConST)과 비교

② 유방암 조직 영상 분석

연구진은 아래 그림에서 보듯이 인간 유방암 H&E 염색 이미지를 사용하여 이미지 특징 추출 기능을 추가로 테스트했습니다.

결과에 따르면 stLearn의 이미지에는 종양 영역과 정상 영역이 섞여 있으며 구별력이 떨어지는 것으로 나타났습니다. ConST는 이미지를 여러 영역으로 나눈 것처럼 보였지만 확대해 보니 영역 경계가 수동 주석과 크게 달랐습니다. DeepST는 효과적인 이미지 특징을 추출하는 데 실패했습니다.STAIG는 종양 부위를 정확하게 식별합니다. 공간적 클러스터링 결과는 높은 수준의 지역적 일관성을 유지하고, 분할된 지역은 수동으로 주석이 달린 윤곽과 거의 완벽하게 일치합니다.탁월한 이미지 특징 추출 능력을 검증했습니다.

인간 유방암 데이터 세트의 H&E 염색 이미지, 시각적 해석을 기반으로 한 수동 주석, 이미지 특징을 기반으로 한 KNN 클러스터링 결과, STAIG와 세 가지 이미지 기반 방법을 비교


인간 유방암 ST의 종양 미세환경 정의

인간 유방암 데이터 세트 분석에서연구자들은 STAIG의 결과가 수동 주석과 매우 일치하며 가장 높은 ARI(0.64)와 NMI(0.70)를 달성했다는 것을 발견했습니다.STAIG가 약간 다르지만 더 정교한 공간적 계층화를 제안한다는 점은 주목할 만합니다. 특히 수동으로 주석이 달린 Healthy_1 지역(그림 2a)에 대해 STAIG가 하위 클러스터 3과 4로 세분화합니다(그림 2b).

STAIG의 고급 공간 분석을 통해 인간 유방암 ST 데이터에서 암 관련 섬유아세포(CAF)가 풍부한 집단이 밝혀졌습니다.

결론적으로, STAIG의 다중 모드 통합을 통해 하위 클러스터 3이 CAF가 밀집된 종양 미세환경을 형성하고 CAF가 풍부한 영역의 분자적 특성을 밝혀냈습니다.

딥러닝은 ST 기술 개발을 위한 강력한 도구를 제공합니다.

유전체학과 ST 기술의 급속한 발전으로 생물의학계에서는 조직 내 유전자 발현의 공간적 분포를 탐구할 수 있게 되었고, 이를 통해 생물체의 복잡한 기능과 구조를 밝혀낼 수 있게 되었습니다. ST 기술은 유전자 발현에 대한 정량적 정보를 제공할 뿐만 아니라 조직 내 세포의 공간적 관계도 보존하여 연구자들이 조직 미세환경, 세포 상호작용, 질병 발달의 공간적 특성을 연구할 수 있도록 합니다. 하지만,ST 데이터는 일반적으로 높은 차원, 강한 노이즈, 배치 효과와 같은 문제를 가지고 있기 때문에 이러한 데이터를 효과적으로 통합하고 분석하는 방법이 현재 연구의 핵심 과제가 되었습니다.

특히 그래프 신경망(GNN)과 대조 학습 방법 등 딥 러닝 기술의 도입은 ST 데이터 분석을 위한 강력한 도구를 제공합니다. 기존의 분석 방법은 차원 축소와 클러스터링에 의존하는 경우가 많은 반면, 딥러닝 방법은 종단 간 학습을 통해 자동으로 다단계 기능을 추출하고 데이터 표현을 최적화할 수 있습니다. 앞서 언급했듯이, GNN 기반 방법은 공간적 인접성 정보를 사용하여 그래프 구조를 구성할 수 있으므로, 모델은 유전자 발현을 포착할 수 있을 뿐만 아니라 세포 간의 공간적 종속성도 학습할 수 있습니다. 대조 학습을 도입하면 모델의 일반화 능력이 더욱 향상되어 주석 없이도 주요 공간적 특징을 학습할 수 있습니다.

또한, 업계는 딥러닝 + ST 기술의 결합에서도 많은 진전을 이루었습니다.

2024년 11월중국 국가생물정보학 센터의 양윈구이가 이끄는 팀과 중국과학원 수학 및 시스템과학 연구소의 장스화가 이끄는 팀은 STASCAN이라는 딥러닝 기반 공간 전사체 세포 주석 도구를 개발했습니다.조직학적 이미지에서 얻은 유전자 발현 프로필과 세포 특성 학습을 통합하여 조직 절편의 알려지지 않은 영역에서 세포 유형을 예측하고 캡처한 영역 내 세포에 주석을 달아 공간적 세포 분해능을 크게 개선했습니다. 더욱이 STASCAN은 다양한 ST 기술의 다양한 데이터 세트에 적용 가능하며 고해상도 세포 분포를 해석하고 향상된 조직 구조를 분해하는 데 상당한 이점을 보여줍니다.

이 연구 결과는 "STASCAN은 딥러닝을 통해 공간 전사체에서 고해상도 세포 분포 지도를 해독한다"라는 제목으로 Genome Biology에 게재되었습니다.

* 서류 주소:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03421-5

2025년 1월 23일미국 프린스턴 대학의 연구팀은 새로운 딥러닝 알고리즘인 GASTON(신경망을 이용한 공간 전사체 구성의 경사 분석)을 개발했습니다. GASTON은 비지도 심층 신경망과 해석 가능한 알고리즘을 결합하여 지형도의 고도와 유사한 "등심도(isodepth)"라는 개념을 혁신적으로 제안했으며, 이는 조직 절편에서 유전자 발현의 공간적 위상 구조를 정량화하는 데 사용됩니다. ,

등심도와 기울기를 통해 연구자는 조직의 다양한 공간 영역을 분할할 수 있을 뿐만 아니라 조직 내 유전자 발현의 지속적인 변화 추세와 주요 마커 유전자를 식별할 수도 있습니다. 이 연구는 마우스 뇌, 마우스 후각구, 대장암 종양 미세환경 등 다양한 생물학적 샘플에 GASTON을 성공적으로 적용했음을 보여주었습니다. 결과는 GASTON이 조직 구조를 정확하게 분석하고, 세포 유형의 공간적 분포와 변화 패턴을 밝히고, 다른 방법에서는 간과되는 많은 공간적 유전자 발현 패턴을 발견할 수 있음을 보여줍니다.

관련 결과는 "해석 가능한 딥 러닝을 통한 공간 유전자 발현 지형 매핑"이라는 제목으로 Nature Methods에 게재되었습니다.

* 서류 주소:
https://www.nature.com/articles/s41592-024-02503-3

당연히 딥러닝과 ST 기술을 결합하면 데이터 통합과 노이즈 감소 능력이 향상될 뿐만 아니라, 공간적 생물학 정보에 대한 심층적 마이닝도 촉진됩니다. 미래에는 컴퓨팅 리소스의 증가와 알고리즘의 최적화로 인해 딥러닝이 ST 데이터 분석에서 더욱 중요한 역할을 수행하고 정밀 의학과 개인화된 치료에 대한 강력한 지원을 제공할 것입니다.

참고문헌:
1.https://static-content.springer.com/esm/art%3A10.1038%2Fs41467-025-56276-0/MediaObjects/41467_2025_56276_MOESM1_ESM.pdf
2.https://www.bjqykxy.com/kexueyanjiu/dongwuzhiwu/7361.html
3.https://news.qq.com/rain/a/20250128A057OQ00?suid=&media_id=
4.https://www.medsci.cn/article/show_