복단 뇌과학 연구소의 새로운 성과: 의미 분할을 기반으로 공간 전사체 의미 주석 도구인 Pianno가 개발되었습니다.

2020년 Nature Methods에서 올해의 기술로 선정된 이후,"공간 전사체학"은 오늘날 생명과학 분야에서 가장 인기 있는 혁신 기술 중 하나가 되었습니다.간단히 말해, 이 기술은 조직의 공간 정보와 전사체 데이터를 얻고, 조직 내 유전자 발현 패턴은 물론 세포 집단의 공간적 위치 관계와 같은 생물학적 특성을 시간적, 공간적 차원에서 정확하게 분석할 수 있습니다. 이는 질병 연구, 성장 및 발달, 기관 구조, 종의 진화 분야 연구에 큰 가치가 있습니다.
공간 전사체학이 학술 연구에서 지속적으로 인기를 얻으면서 10x Visium, Slide-seq, Stereo-seq와 같은 공간 전사체학 기술도 등장했습니다. 이러한 최신 성과와 발전은 조직의 유전자 발현 패턴에 대한 인간 연구를 완전히 바꾸고 있습니다. 그러나 조직 내의 특정 물리적 좌표에서 유전자 발현 프로파일을 얻는 것만으로는 생물학적 시스템의 복잡성을 완전히 이해하기에 충분하지 않습니다. 복잡성을 완전히 이해하려면 조직 내의 각 공간 지점의 생물학적 정체성을 식별하는 것이 필요합니다.
현재, 머신 러닝 기반 방법은 공간적 지점의 클러스터를 식별하고 마커 유전자를 사용하여 생물학적 정체성을 해석하는 데 널리 사용되었습니다.그러나 이러한 방법은 클러스터 내의 알려진 구조에 대한 명확한 연결을 만드는 능력이 부족하여 제한되는 경우가 많습니다.또한, 수동 주석은 알려진 구조를 식별하는 데 종종 사용되지만, 이 방법은 종종 연구자의 전문성과 주관적인 판단에 의해 제한되며 대규모 분석에는 적용할 수 없습니다.
위와 같은 과제에 대응하여, 복단대학교 뇌과학연구소의 주잉 연구팀은 최근 "Pianno: 공간 전사체를 위한 의미 주석을 자동화하는 확률적 프레임워크"라는 제목의 연구 결과를 "Nature Communications"에 발표했습니다.연구팀은 컴퓨터 비전에서 '의미 분할'이라는 개념을 차용하여 '공간 전사체 의미 주석'이라는 개념을 제안하고, 공간 전사체 의미 주석 도구인 Pianno를 개발했습니다.조직 내의 공간적 지점에 대한 구조나 세포 유형을 자동으로 정의하는 기능은 여러 차원의 정보를 결합하여 복잡한 생물학적 시스템에 대한 해석을 향상시킬 수 있습니다.
연구 하이라이트:
* Pianno는 다양한 공간 전사체학 기술로 생성된 데이터에 적용 가능한 고유한 자동 라벨링 모드를 가지고 있습니다.
* Pianno는 최첨단 공간 클러스터링 방법과 비교하여 뛰어난 성능을 보여주며 공간 전사체 데이터에 대한 새로운 통찰력을 제공합니다.

서류 주소:
https://doi.org/10.1038/s41467-024-47152-4
데이터 세트: 공개 데이터, 엄격한 계산
이 연구에서 사용된 데이터 세트는 주로 다양한 공간 기술 플랫폼의 공개 데이터 세트입니다. 여기에는 인간 배외측 전두엽 피질 데이터 세트 dlPFC, 성인 마우스 대뇌 반구 관상 단면 데이터 세트 Stereo-seq, 마우스 해마 전처리 데이터 세트 Slide-seqV2, 인간 췌장관 선암 데이터 세트 ST, 인간 유방암 데이터 세트 Visium, 마우스 일차 시각 피질 데이터 세트 scRNA-seq, 여러 인간 피질 영역의 snRNA-seq 데이터 세트, 마우스 후각구의 DAPI 염색 이미지가 포함됩니다.
본 연구에서는 노이즈 감소, 평활화, 선명화 등의 영상 처리 기술로 인해 원래 생물학적 특징이 파괴되는 것을 방지하기 위해,연구팀은 초기 주석을 미세 조정하기 위해 원시 개수를 기반으로 베이지안 분류기를 구축했습니다.동시에 연구팀은 고차 마르코프 난수장(MRF) 사전 모델을 적용했습니다. 공간 전사체학의 맥락에서 유전자 발현과 각 부위의 공간적 위치를 함께 고려해야 하기 때문에 연구팀은 공간적 포아송 점 과정(sPPP) 모델도 채택했습니다.
Pianno: 자동화된 공간 전사체 의미 주석을 위한 혁신적인 신도구
연구팀은 베이지안 프레임워크를 기반으로 한 Pianno라는 새로운 도구를 제안했습니다.이 도구는 마르코프 난수장(MRF)과 공간적 포아송 점 프로세스(sPPP)를 결합하여, 공간적 점의 위치 정보를 고려하면서 RNA-seq 카운트 데이터의 분포를 모델링하는 sPPP의 기능을 최대한 활용합니다. 사전 정의된 마커 유전자 목록을 사용하여 공간 전사체 데이터의 각 지점의 생물학적 정체성을 자동으로 주석 처리할 수 있습니다.

Pianno가 입력한 공간 전사체 데이터는 공간 좌표, 초기 마커 유전자 목록 및 원시 유전자 개수로 구성됩니다.각 패턴은 최소한 하나의 알려진 토큰을 제공합니다.
주석 처리 과정은 초기 분할 단계와 세부화 단계로 구성됩니다.
초기 세분화 단계에서각 유전자의 공간적 표현은 회색조 이미지로 변환되었습니다. 각 타겟 패턴에 대해 해당 패턴과 연관된 마커 유전자의 회색조 이미지를 집계하여 패턴 이미지를 생성한 다음, 각 패턴에 대한 추가 후보 마커 유전자를 결정하여 초기 마커 목록을 업데이트합니다. 업데이트된 마커 목록은 처음에 주석이 달린 구조에서의 고유한 표현 패턴을 고려하여 후속 정제 단계에 통합됩니다.
정제 단계에서,베이지안 분류기는 각 공간 지점이 다른 모드에 속할 사후 확률을 평가하기 위해 구성되고, 그런 다음 사후 확률을 기반으로 주석이 업데이트됩니다.
Pianno는 주석을 업데이트하기 위한 두 가지 방법을 제공합니다.
* 의미 주석에서 연속 패턴의 경우 확률 분포를 패턴 이미지로 사용하고 주석을 업데이트하기 위해 패턴 감지기로 반환하는 것이 좋습니다. * 분산되거나 선명한 이미지 패턴의 경우 확률 값을 기반으로 레이블을 직접 업데이트하는 것이 좋습니다. 이렇게 하면 자세한 정보를 유지할 수 있습니다.
일반적으로,피아니스트는 주석 처리 과정을 단순화하고 초기 단일 마커 유전자를 사용하여 추가 마커 유전자를 식별하는 휴리스틱 접근 방식을 채택했습니다. 이를 통해 알려진 마커 수의 입력을 최소화할 수 있습니다.
연구 결과: 우수한 성능과 강력한 적용성
본 연구에서 연구팀은 Pianno의 성능, 정확도, 적응성을 검증하였으며, 기존 방식과 비교하여 Pianno의 역량을 더욱 입증했습니다.
연구팀은 해부학적 구조 주석을 위한 클러스터링 기반 도구와 비교하기 위해 dlPFC 데이터 세트에서 12개 샘플을 사용하여 Pianno의 성능을 평가하고, 공간 정보가 없는 마커 기반 주석 방법인 CellAssign과 비교했습니다. 또한, 비지도 클러스터링 방법인 라이덴 알고리즘과 5가지 공간 클러스터링 방법(SpaGCN, SEDR, BayesSpace, DeepST 및 STAGATE)도 평가 과정에서 고려되었습니다.

평가 결과 다음과 같은 사실이 발견되었습니다.피아니스트의 연주는 형태학적 특징과 마커를 기반으로 한 숙련된 연구자들의 수동 주석과 가장 높은 일치도를 보였습니다.12개 샘플 중 11개가 다른 테스트 방법보다 우수한 성과를 보였습니다.

연구팀은 또한 위 그림 e에서 볼 수 있듯이 정확도(ACC), 거시 평균 정밀도(P), 거시 평균 재현율(R), 거시 평균 F1 점수(F1) 및 정규화된 상호 정보(NMI)와 같은 다른 분류 지표를 통해 Pianno의 우수한 성능을 더욱 종합적으로 평가했습니다.피아노 관련 지표는 모두 높은 수준입니다.

연구팀은 피아노가 세포 유형의 공간적 분포를 예측하는 능력을 평가했습니다. 이번 검증 과정에서 연구팀은 성인 마우스 뇌반구의 관상 단면에 대한 Stereo-seq 데이터 세트를 사용하고 세포 분할 후 비지도 클러스터링과 공간적 및 단일 세포 전사체학의 통합을 기반으로 하는 세 가지 공간적 디컨볼루션 도구를 포함한 다양한 전략을 통해 추론된 세포 유형 분포와 결과를 비교했습니다.
이 연구에서는 피아노의 흥분성 뉴런 하위 유형의 분포에 대한 예측이 탕그램과 RCTD와 비슷한 패턴을 보였으며, 각 층에서 알려진 위치와 매우 일치한다는 것을 발견했습니다. 일반적으로,이러한 결과는 공간 데이터 세트에서 복잡한 세포 유형 분포를 예측하는 데 있어 Pianno가 견고하고 정확하다는 것을 보여주며, 특히 비지도 학습 방법이 어려움을 겪는 상황에서 그 효과가 두드러집니다.
연구팀은 다양한 플랫폼에서 공간 전사체 데이터의 다양한 모양 구조에 주석을 달 때 Pianno의 성능을 추가로 평가하고 이를 STAGATE와 비교했습니다.

연구팀은 Pianno를 사용하여 마우스 후각구의 Stereo-seq 데이터 세트에서 해부학적 구조에 주석을 달았습니다. 이 데이터 세트에는 조직으로 덮인 영역과 배경 영역을 모두 포함하는 10,747개의 공간 지점이 포함되어 있습니다.
피아니는 몇 분 안에 배경 뺄셈과 구조 주석 작업을 동시에 수행할 수 있었습니다. 이와 대조적으로 클러스터의 개수를 구조의 개수로 설정하면 STAGATE는 모든 해부학적 구조에 해당하는 클러스터를 식별하지 못합니다.
연구팀은 또한 종양 미세환경의 높은 이질성을 고려하여 복잡하고 분산된 구조적 조직에 주석을 달 때 Pianno의 성능을 평가했습니다. 이번 실험에서는 두 개의 인간 췌장관 선암 샘플과 두 개의 유방암 샘플의 미세환경을 분석했습니다.

전반적인,피아노는 전문 병리학자의 수동 주석과 일관성을 보였으며, 특히 이질적인 종양 미세환경에서 불규칙하고 복잡한 구조에 주석을 달 때 큰 잠재력을 발휘한다는 것을 보여주었습니다.이는 병리학자들이 종양 생물학의 복잡성을 이해하는 데 귀중한 도움을 제공하며, 개인화된 치료 전략을 제공하기 위한 새로운 아이디어를 제공할 것으로 기대됩니다.
인공지능과 복잡한 생물학을 결합하면 엄청난 잠재력이 있습니다.
복단대학 뇌과학연구소에 따르면, 이 연구 프로젝트는 국가중점연구개발계획의 핵심 프로젝트인 "생물정보융합(BT와 IT융합)", 과학기술혁신 2030의 중점 프로젝트인 "뇌과학과 뇌유사연구", 국가자연과학기금, 상하이과학기술중점프로젝트, 장장실험실의 지원을 받았습니다.
복단대학교 뇌과학연구소는 2006년 4월에 설립된 것으로 알려졌습니다. 복단대학교의 학교 전체에 걸친 뇌과학 연구 기관이며, 교육부의 "985공정" 2단계에서 구축된 핵심 과학기술 혁신 플랫폼 중 하나입니다. 이는 국가 의과신경생물학 핵심연구소와의 "2-in-1" 건설 프로젝트입니다.
복단대학 뇌과학연구소는 설립 이래로 많은 성과를 거두었습니다. 본 연구소는 주요 국제적, 국가적 요구에 반복적으로 대응하고, 주요 과학 연구 프로젝트를 수행하며, 중요한 연구 결과를 도출해냈습니다. 공식 홈페이지에 따르면, 연구소 연구진은 과학기술부의 '973계획', '863계획', 과학기술혁신 2030 '뇌과학 및 뇌유사연구', 국가중점연구개발계획, 국가중점과학기술특별프로젝트 '중대신약창출' 등 일련의 주요 과학연구 프로젝트를 주관하고 참여했습니다.
실제로 복단대학 뇌과학연구소 외에도 많은 연구소와 기업에서도 공간 전사체 기술에 주목하기 시작했습니다.
예를 들어,중국과학원 수학 및 시스템과학 연구소의 장시화 연구팀은 STA 시리즈 도구를 개발했습니다. 2022년에 연구팀은 다양한 공간 전사체 기술과 다양한 생물학적 조직에 적응 가능한 생물학적 조직의 공간적 하위 구조를 식별하기 위한 인공지능 도구인 STAGATE를 출시했습니다. 팀은 2023년에 들어서 공간 전사체 기술에 대한 여러 가지 결과를 발표했습니다. * 다양한 기술, 다양한 발달 시점 및 다양한 질병 상태에서 생물학적 조직의 다중 슬라이스 공간 전사체 데이터를 위한 새로운 통합 분석 도구인 STAligner를 개발했습니다. * STAMarker는 심층 학습 뛰어난 지도를 기반으로 하는 공간 영역 특정 가변 유전자 식별 방법으로, 공간 영역 식별과 해당 공간 가변 유전자 식별을 동시에 실현하며, 공간 전사체 데이터의 세밀한 분석을 위한 효과적인 방법을 제공할 것으로 기대됩니다. * 중국과학원 베이징 유전체학 연구소(국가생물정보학 센터)의 양운귀와 채준 팀과 협력하여 지중해 벌레의 재생 중 3차원 공간 전사체 지도 STAPR을 매핑하고 재생에 대한 여러 가지 주요 조절 요소를 체계적으로 식별했습니다.

중부사범대학 수학통계학부의 장샤오페이 교수 연구진은 ENGEP이라는 계산 방법을 개발했습니다.k-최근접 이웃 가중 회귀 분석과 앙상블 학습 전략을 사용하여 공간 전사체에서 측정되지 않은 유전자의 발현을 정확하게 예측할 수 있었습니다. 또한, ENGEP은 공간적으로 측정되지 않은 유전자의 발현 패턴을 정확하게 예측할 수 있는데, 이는 공간 전사체 데이터를 강화하는 데 매우 중요합니다.
AI가 공간 전사체학 및 생물학 분야에서 힘을 발휘하면서 연구 효율성이 향상되었을 뿐만 아니라 과학 연구의 어려움에 대한 새로운 해결책도 제공했다는 점에는 의심의 여지가 없습니다. 논문의 논의 부분에서 지적했듯이 Pianno가 가져다주는 가치는 기존의 노동 집약적인 수동 주석 작업을 대체하고 자동화된 방식으로 효율적이고 정확하며 저렴한 양식을 제공하여 공간 전사체학에 변화를 가져오고 생물학의 새로운 발전을 촉진할 수 있다는 점입니다.
참고문헌:
1. https://news.fudan.edu.cn/2024/0407/c2474a139894/page.htm
2. https://bfse.cas.cn/sxyqyjc/kyjz/202311/t20231110_4985132.html
3. https://kjc.ccnu.edu.cn/info/1009/3744.htm