데이터 잡음 제거/생물학적 신호 강화/드롭아웃 완화, 딥러닝 모델 SUICA는 공간 전사체 슬라이스의 모든 위치에서 유전자 발현 예측을 달성합니다.

도쿄대학교 정인창 교수 연구팀과 맥길대학교 딩준 교수 연구팀이 공동으로 공간 전사체 데이터 모델링 방법인 SUICA를 제안했습니다. SUICA는 암묵적 신경 표현(INR)과 그래프 오토인코더를 기반으로 하는 딥러닝 모델입니다. SUICA는 그래프 오토인코더를 사용하여 고차원 공간 전사체 데이터의 차원을 축소한 후, 암묵적 신경 표현을 사용하여 공간 전사체 데이터의 좌표와 그에 해당하는 유전자 발현을 모델링합니다. 이를 통해 공간 전사체 슬라이스 내 모든 위치에서 유전자 발현을 예측할 수 있습니다.연구 결과에 따르면 SUICA가 처리한 공간 전사체 데이터는 품질이 더 높고, 노이즈가 더 적으며, 생물학적 신호가 더 강할 수 있는 것으로 나타났습니다.
관련 결과는 "SUICA: 공간 전사체를 위한 초고차원 희소 암묵적 신경 표현 학습"이라는 제목으로 ICML 2025에 선정되었습니다.

서류 주소:
https://go.hyper.ai/C6Zcl
에 집중하다 「하이퍼AI "위챗 공식 계정에서 백스테이지에 "SUICA"라고 답글을 달면 전체 PDF를 받을 수 있습니다.
더 많은 AI 프런티어 논문:
https://go.hyper.ai/owxf6
공간 전사체 데이터란 무엇인가?
공간 전사체학(ST) 데이터는 동일한 조직 단면에서 "유전자 발현 수준"과 "공간 좌표"를 동시에 기록하는 고차원 정보 행렬입니다.형태적 구조만 보여줄 수 있는 기존의 파노라마 조직 영상(WSI)이나 유전자 발현을 정량화만 할 수 있고 방향을 잃은 기존 전사체학과 비교할 때, 공간 전사체학은 "어떤 유전자가 발현되는가"와 "조직 내 어디에 위치하는가"를 결합하여 조직 내 세포 상태와 미세환경 간의 상호 작용에 대한 기능적 지도를 그려 조직학과 분자 오믹스를 연결하는 새로운 데이터 형태가 되었습니다.
공간 전사체 데이터를 향상시켜야 하는 이유는 무엇입니까?
공간 전사체학은 전례 없는 공간적으로 분해된 분자적 통찰력을 제공했지만 실제 데이터는 여전히 세 가지 주요 병목 현상으로 인해 제한을 받습니다.
① 해결-비용 모순:프로브가 더 조밀하고 시퀀싱 깊이가 높을수록 실험 비용이 더 빨리 증가하고(예: stereo-seq의 시퀀싱 실험 비용은 $4,000/cm²보다 높음) 샘플 처리량이 증가합니다.
② 신호 희소성 및 잡음:각 검출 지점에서 포착되는 mRNA의 수는 제한되어 있으며, 제로 확장이 심각하여 존재비가 낮거나 핵심 조절 유전자를 놓치기 쉽습니다.
③ 크로스 플랫폼 이기종성:플랫폼마다 프로브의 물리적 배열, 시퀀싱 깊이, 배경 노이즈가 상당히 다르기 때문에 여러 샘플이나 여러 실험의 통합이 직접적으로 방해를 받습니다.
계산 향상 방법에는 초고해상도 재구성, 심층적 잡음 제거, 누락된 값 채우기가 포함되며, 이를 통해 실험 비용을 늘리지 않고(또는 약간만 늘리고도) 다음을 수행할 수 있습니다.
(a) 시퀀싱되지 않은 부위의 유전자 발현 예측
(b) 기술적 한계로 인해 검출할 수 없는 실제 유전자 발현을 회복하고, 차별적으로 발현되는 유전자와 공간적으로 변하는 유전자를 검출하는 민감도를 향상시킨다.
(c) 다양한 플랫폼에서 비교 가능하고 공유 가능한 표준화된 기능 표현을 생성합니다.
이를 통해 세포 통신 분석, 질병 구역 주석, 약물 표적 발견, 다중 오믹스 공동 모델링 및 AI 병리학 지원 진단을 위한 보다 정확하고 풍부하며 확장 가능한 데이터 기반이 제공되어 기초 연구와 임상 혁신 분야에서 공간 전사체학 기술의 잠재력이 크게 발휘될 것입니다.
SUICA: 암묵적 신경 표현과 그래프 자동 인코더를 기반으로 한 통합 모델
암묵적 신경 표현을 사용하여 공간 전사체 데이터를 모델링하는 과제
공간 전사체 데이터를 모델링하는 데는 여러 가지 과제가 있습니다.
첫째, 원본 데이터는 공간 차원에서 격자 형태로 분포됩니다.유전자 차원 측면에서 보면, 그 수는 수천에서 수만 개에 달하며, "초고차원, 극히 희소하고 노이즈가 많은" 행렬을 형성합니다. 높은 중도 탈락률은 주요 생물학적 신호를 약화시켜 통계적 검정력의 부족을 더욱 심화시킵니다.
두 번째로, 기존의 공간 전사체학 플랫폼은 해상도와 비용 간에 근본적인 상충 관계가 있습니다.——프로브가 더 조밀해지고 시퀀싱이 더 깊어질수록 비용은 기하급수적으로 증가하여 세포 수준의 분해능과 대규모 샘플 크기를 동시에 달성하는 것이 어려워집니다.
셋째, 암묵적 신경 표현을 사용하여 이산적인 공간 전사체 점을 연속적인 발현 영역에 보간하려고 할 때 두 가지 주요 기술적 어려움을 동시에 해결해야 합니다. 첫째, 유전자 발현 공간의 차원이 기존 시각 신호의 차원을 훨씬 넘어서며, 단순히 네트워크를 넓히거나 깊게 만드는 것만으로는 차원의 저주를 제거하기 어렵습니다. 둘째, 확장이 없으면 입력 신호가 매우 고르지 않게 분포되고, 기존 INR로는 복잡하고 비선형적인 공간 발현 패턴을 포착하기 어렵습니다.
그림 자동 인코더: 고차원 공간에서 전사체 데이터의 차원 축소
기존 오토인코더와 달리, 본 연구에서는 각 공간 전사체의 데이터 포인트를 그래프 노드로 간주하고 공간적 근접성을 기반으로 인접 행렬을 구축합니다. 그런 다음, 인코더에서 그래프 합성곱을 사용하여 원래의 고차원 유전자 발현을 합성곱하고, 지역적 공간 맥락을 표현에 통합하여 저차원 표현으로 압축합니다. 이를 통해 고차원 공간 전사체 데이터의 저차원 표현을 학습하고, 그래프 합성곱을 추가함으로써 희소하고 노이즈가 많은 공간 전사체 데이터 신호를 향상시킬 수 있습니다.
암묵적 신경 표현: 시퀀싱 지점 좌표와 유전자 발현 간 매핑 설정
저차원 표현을 얻은 후,암묵적 신경 표현 네트워크는 감지 지점의 좌표를 입력으로 받고 "지점"과 해당 저차원 표현 간의 매핑을 학습합니다.그리고 학습되고 모델이 예측한 저차원 표현은 그래프 자동 인코더의 디코더 부분으로 전송되어 좌표를 고차원 유전자 발현에 매핑하는 기능을 달성합니다.

실험적 검증: SUICA는 더욱 정확하고 생물학적으로 관련성 있는 예측 결과를 생성할 수 있습니다.
벤치마크 비교를 위해 스테레오-시퀀스 마우스 배아 데이터와 슬라이드-시퀀스 마우스 뇌 단면 데이터를 사용했습니다. 미지점 예측(초해상도) 과제에서 SUICA는 여러 핵심 지표에서 기존 모델과 FFN 및 SIREN을 포함한 기존의 암묵적 신경 표현 모델을 크게 능가했습니다. 각 방법의 예측 효과를 시각화한 결과, SUICA의 예측은 유전자 발현 패턴을 정확하게 복원할 뿐만 아니라 유전자 발현 신호를 향상시킬 수 있음을 보여주었습니다. 예를 들어, 마우스 배아의 신경계 발달에 중요한 역할을 하는 유전자인 SEPT3는 실제 데이터(groundtruth)의 신호가 명확하지 않음에도 불구하고 이 신호를 성공적으로 포착했습니다.
다양한 방법으로 생성된 결과를 클러스터링하고 레이블링함으로써, SUICA로 생성된 세포 유형이 실제 세포 유형과 가장 유사하다는 것을 직관적으로 확인했습니다. 또한, SUICA로 생성된 세포 유형은 공간에서 더 세부적인 장기 및 조직 구조를 유지합니다.이러한 결과는 SUICA가 생물학적 신호를 향상시키고 다양한 장기와 조직 간의 세포 상태에서 미묘한 차이를 식별할 수 있는 능력이 있음을 보여줍니다.

실험적 검증: SUICA는 공간 전사체 데이터의 노이즈를 줄이고 드롭아웃 현상을 완화할 수 있습니다.
SUICA의 노이즈 제거 능력(유전자 임퓨테이션)과 시퀀싱 기술의 한계로 인해 0개의 읽기가 발생한 드롭아웃에서 실제 유전자 발현을 복구하는 능력을 검증하기 위해 공간 전사체 데이터에 인위적으로 가우시안 노이즈를 추가하거나 유전자 발현을 무작위로 0으로 설정했습니다. 유전자 임퓨테이션 실험에서는 데이터의 유전자 발현의 70%를 무작위로 0으로 설정했습니다. 유전자 발현 노이즈 제거 실험에서는 노이즈를 추가한 후의 유전자 발현 분포가 원래 유전자 발현 분포와 유사한지 확인하기 위해 모든 음수 값을 0으로 설정했습니다.실험 결과에 따르면 SUICA는 여러 지표에서 기존 방법보다 우수한 것으로 나타났으며, 공간 전사체 데이터의 노이즈를 줄이고 탈락 현상을 완화하는 능력이 입증되었습니다.
