HyperAI초신경

유전체학을 위한 AI | 공간 전사체 데이터 표현 알고리즘 SPACE, 유전체학에 인공지능 적용

特色图像

"AI4S를 만나다" 시리즈의 두 번째 에피소드에서는 청화대학교 생명과학대학 장창펑 연구실의 박사후 연구원인 리위저를 초대하게 되어 영광입니다.그의 연구실인 장창펑은 청화대학교 생명과학부에 속해 있습니다. 또한 이곳은 청화-베이징 대학 생명과학 공동 센터와 베이징 구조생물학 첨단혁신 센터의 중요한 부분입니다. 본 연구실의 연구는 생명과학과 인공지능 알고리즘의 교차점, RNA 구조 그룹 기술과 알고리즘 개발, 단일 세포 게놈 시퀀싱 기술과 알고리즘 개발, 극저온 전자 현미경 데이터를 기반으로 한 단백질 구조 모델링, 그리고 관련 인공지능 알고리즘 개발에 중점을 두고 있습니다.


이 공유는,리위저 박사는 "유전체학에서 AI 응용 프로그램 탐색: 공간 전사체 데이터 특성화 알고리즘 SPACE를 예로 들어"라는 제목으로 발표를 했습니다.팀의 최신 연구 결과가 공유되었고, 공간 전사체학 및 단일 세포 오믹스 연구에서의 AI 방법이 소개되었습니다.

HyperAI는 원래 의도를 훼손하지 않으면서 이위저 박사의 심도 있는 공유 내용을 편집하고 요약했습니다.

전체 라이브 리플레이를 보려면 클릭하세요:

과학을 위한 AI는 과학 분야의 연구 패러다임에 엄청난 변화를 가져옵니다.

오늘 제가 공유할 주제는 과학을 위한 AI입니다. 저는 과학을 위한 AI가 과학 분야 전체의 연구 패러다임에 큰 변화를 가져왔다고 믿습니다. 다음으로 단백질 구조에 대한 연구를 예로 들어 자세히 설명하겠습니다.

첫 번째 세대의 단백질 구조 연구 패러다임은 주로 실험을 통해 수행되었습니다.즉, 단백질에 의해 형성된 결정을 X선을 사용하여 사진으로 촬영한 다음 구조 모델링을 수행합니다.

두 번째 세대의 단백질 구조 연구 패러다임은 주로 단백질 구조 연구에 이론적 지식을 추가한 물리학자들에 의해 주도되었습니다.예를 들어, 단백질 접힘의 에너지가 낮으면 이 접힘은 비교적 안정적입니다.

단백질 구조 연구 패러다임의 3세대는 1990년대를 말하는데, 이때는 컴퓨터 기술이 발달하면서 컴퓨터 시뮬레이션이 점차 단백질 구조 연구에 적용되기 시작했습니다.특히, 분자 동역학 시뮬레이션은 최근 몇 년 동안 널리 활용되어 왔습니다. 이러한 시뮬레이션 방법은 어느 정도 단백질 구조를 더 정확하게 계산하고 예측하는 데 도움이 됩니다. 최근 몇 년 동안, 특히 2020년에는 인공지능 알고리즘이 단백질 구조 분야에 진출하여 또 다른 획기적인 진전을 이루었습니다. 2020년 단백질 구조 예측 대회에서 AlphaFold 2는 다른 경쟁 방법보다 훨씬 앞서 나갔습니다.

인공지능의 도입은 생명과학과 과학 연구 분야 전체에 엄청난 패러다임 전환을 가져왔습니다. 기존의 연구방법과 비교했을 때,인공지능은 데이터에서 시작하여 데이터 기반의 과학 연구를 수행하는 데 더 많은 중점을 둡니다.즉, 우리는 더 이상 미리 과학적 가설을 제시할 필요가 없으며, 데이터로부터 직접 자연의 법칙을 배우고 밝혀낼 수 있습니다.

게놈학을 위한 AI의 진화

다음 발표에서는 유전체학 분야에서 AI를 적용하는 것에 초점을 맞춥니다. 간단히 말해서,유전체학 연구는 주로 유전형(신체의 모든 DNA)과 표현형(키와 몸무게와 같은 개별적 특성) 간의 관계를 탐구합니다.

우리 모두 알다시피, DNA는 세포 내에 벌거벗은 채로 존재하지 않고 핵소체에 둘러싸여 존재합니다. 핵소체는 많은 히스톤 변형과 함께 부착됩니다. 일반적으로 이러한 DNA는 서로 단단히 묶여 있습니다. 특정 조건에서만 DNA가 노출되어 열린 간격이 형성됩니다. 이 시점에서 전사인자와 같은 단백질은 노출된 DNA 영역에 결합될 수 있습니다.

이후 전사 과정에서 RNA는 RNA 중합효소에 의해 전사되고, 이후 리보솜에 의해 단백질로 번역되며, 최종적으로 단백질은 생명 활동에 역할을 하게 됩니다.유전체학의 연구 목표는 다양한 DNA 요소가 생명 활동에 어떻게 영향을 미치는지 이해하는 것입니다.

우리는 1950년대에 DNA 이중나선 구조가 밝혀진 이후 최근까지 과학을 위한 AI 개발에 있어서 중요한 사건과 발전을 요약합니다. 그 기원은 1950년대 DNA의 이중나선 구조가 발견되고, 1970년대 샌거 시퀀싱 기술이 개발된 데서 찾을 수 있습니다.

아래 그림과 같이 파란색 부분은 다양한 시퀀싱 기술과 실험 기술의 발전을 나타냅니다. 녹색 부분은 인공지능 분야의 중요한 방법을 나타냅니다. 노란색 부분은 몇 가지 중요한 대규모 연구 계획과 데이터베이스의 구축을 나타냅니다. 빨간색 부분은 게놈학을 위한 AI 분야의 대표적인 방법과 응용 프로그램을 나타냅니다.

보시다시피,2001인간 게놈 프로젝트의 초안이 처음으로 완성되어 백인 남성의 DNA 전체 염기서열을 분석했습니다. 2012년에AlexNet은 이미지 분류 작업에서 처음으로 인간을 앞지르며 지난 10년간 인공지능의 폭발적인 발전을 이끌었습니다. 2016년에인간 세포 지도 프로젝트가 제안되었고, 연구는 점차 단일 개인의 DNA 서열에서 모든 세포의 DNA 서열로 옮겨갔습니다. 같은 해, 강화학습 방법을 기반으로 한 알파고가 바둑에서 인간을 이겼습니다.

게놈학을 위한 AI 또는 과학을 위한 AI의 경우,중요한 돌파구 중 하나는 AlphaFold 2가 2020년 CASP 14에서 압도적인 1위를 차지했다는 것입니다.이로 인해 유전체학 분야에 점점 더 많은 인공지능 방법이 적용되고 있습니다.

안에,단일세포 유전체학은 최근 몇 년 동안 유전체학 분야에서 큰 획기적인 발전이었습니다.전통적인 유전체학 연구는 일반적으로 대량 시퀀싱을 포함합니다. 아래 그림의 각 선은 세포 유형을 나타내고, 서로 다른 색상의 선은 서로 다른 세포 유형을 나타낸다고 가정해 보겠습니다. 과거의 시퀀싱 방법은 전체 조직을 혼합하고 시퀀싱하는 과정이어서 각 DNA나 RNA가 어떤 특정 세포에서 왔는지 판별하기 어려웠습니다. 단일 세포 기술의 등장으로 우리는 조직 내의 모든 DNA나 RNA를 얻을 수 있을 뿐만 아니라, 이 DNA나 RNA의 특정 세포 출처를 식별할 수도 있게 되었습니다. 다양한 세포 유형은 서로 다른 유전자 발현을 가지고 있으며, 각기 다른 기능을 수행하므로 우리는 생명 활동을 더욱 잘 이해할 수 있습니다.

지난 5년 동안 공간 전사체학으로 대표되는 공간 오믹스 기술은 단일 세포 오믹스 기술을 기반으로 한 단계 더 발전했습니다.우리는 각 세포 유형에 대한 정보를 얻을 수 있을 뿐만 아니라, 우주에서 이들 세포의 분포도 확인할 수 있습니다.세포 간의 상호작용은 세포 기능을 실현하는 데 중요한 기초이므로, 추가 연구는 세포가 어떻게 연결되어 있는지에 초점을 맞추고 있습니다.

인간 게놈 프로젝트가 시작된 이후 2016년 인간 세포 지도 프로젝트가 제안되기까지, 이 프로젝트의 목표는 모든 인간 세포의 참조 지도를 완성하여 생명 활동을 더 잘 이해하고 특정 질병의 치료 및 진단을 지원하는 것이었습니다.

연구팀은 단일 세포 게놈 연구를 위해 SCALE, SCALEX, SPACE의 세 가지 방법을 개발했습니다.

우리 연구실에서는 일련의 인공지능 방법을 개발했습니다.우리는 단일 세포 유전체학에는 두 가지 주요 단계가 필요하다고 생각합니다. 첫째, 세포에 대한 설명, 둘째, 세포에 대한 추론입니다.

우리는 세포를 설명하기 위해 SCALE, SCALEX, SPACE라는 세 가지 연구를 발표했습니다.SCALE은 주로 시각화와 클러스터링을 위한 것이고, SCALEX는 데이터 통합과 투영을 위한 것이고, SPACE는 전체 공간 전사체 데이터 구성 미세환경을 설명하기 위한 것입니다.오늘은 주로 SCALEX와 SPACE라는 두 가지 방법을 소개해드리겠습니다.

배치 효과를 제거하기 위한 SCALEX 방법

SCALEX 방법은 배치 효과를 제거하는 것입니다.이것은 게놈학 연구에서 매우 중요한 문제입니다. 배치 효과는 실험 조건의 차이 등 기술적 요인으로 인해 서로 다른 배치 간에 실험 결과가 달라지는 것을 말합니다.

아래 그림에서 보듯이, 두 개의 생물학적 세포 복제본을 따로 배양하더라도 이론적으로 두 세포 그룹을 시퀀싱하면 매우 유사한 유전자 발현이 나타나야 합니다. 그러나 문화 환경의 차이, 라이브러리 구축 시간, 시퀀싱 플랫폼 등의 기술적 이유로 인해최종 유전자 발현 프로필은 크게 달라질 수 있으므로 많은 기술적 노이즈가 발생할 수 있습니다.따라서 데이터를 분석할 때 이러한 배치 효과를 제거하는 것이 필요합니다.

생물학 연구에서는 데이터를 한꺼번에 수집할 수 없는 경우가 많지만, 여러 번의 실험을 통해 점진적으로 축적됩니다. 그러므로,일괄 효과를 제거하고 통합된 방식으로 데이터를 분석하여 실제로 생물학적으로 관련성이 있는 요소를 찾습니다.이는 유전체학 또는 단일 세포 유전체학 연구의 핵심 단계입니다.

이를 바탕으로 우리는 SCALEX 방법을 개발했습니다.처리된 단일 세포 데이터를 일반화된 세포 잠재 공간으로 투영할 수 있습니다. SCALEX의 프레임워크는 변이 자동 인코더(VAE)를 기반으로 합니다.

첫 번째 입력은 단일 세포의 전사체 데이터이며, 이 데이터는 일괄 처리 없는 인코더를 통해 일반화된 세포 잠재 공간으로 투사됩니다.

그런 다음, 배치 정보는 배치별 디코더를 통한 도메인별 배치 정규화를 통해 모델에 추가됩니다. 이러한 비대칭적 설계를 통해 생성된 셀 잠재 공간은 배치와 독립적인 공간이 되며, 이론적으로 배치 관련 기술적 노이즈를 포함하지 않습니다. 유전자 발현은 디코더를 통해 재구성되고, 손실은 원래 입력 유전자 발현 스펙트럼을 사용하여 계산됩니다. 동시에 KL 발산과 결합하여 자기 감독 모델인 SCALEX 모델의 손실 함수가 구성됩니다.

이 비대칭 인코더 및 디코더 설계에는 두 가지 주요 장점이 있습니다.첫째, 결과 인코더는 보편적입니다.즉, 모델을 재교육하거나 새 데이터를 기존 데이터에 다시 통합하지 않고도 인코더를 통해 배치 정보 없이 새 데이터를 셀 잠재 공간으로 직접 투사할 수 있습니다.

두 번째로, SCALEX는 글로벌 배치 효과에 더 많은 관심을 기울입니다.배치 효과를 제거하는 기존 방법은 주로 두 배치의 데이터에서 유사한 셀(셀 쌍)을 찾아 이를 쌍으로 묶어 수정하여 배치 효과를 제거하는 것입니다. 이 방법은 본질적으로 비교적 지역적인 일괄 효과 수정입니다.

그러나 이러한 방법에는 문제가 있습니다. 즉, 실제 데이터 분석에서 두 개의 서로 다른 배치에 있는 세포 유형이 완전히 일치하지 않을 수 있으며, 공통적인 세포 유형이 몇 개만 있을 수 있고 나머지는 배치별로 다를 수 있습니다. 세포 페어링을 강제로 실행하면, 적합한 페어링된 세포를 찾을 수 없기 때문에 과도한 보정이 발생할 수 있으며, 정렬되어서는 안 되는 세포 유형이 강제로 정렬됩니다.

이와 관련하여 SCALEX의 두 가지 주요 장점에 대해 자세히 설명하겠습니다.

먼저, 5개의 테스트 데이터 세트에서 SCALEX를 벤치마킹합니다.결과는 SCALEX가 정확도 측면에서 기존 방법보다 우수한 것으로 나타났습니다.

아래 그림에서 보듯이, 배치 그래프는 원본 데이터와 보정되지 않은 데이터를 나타내고, 파란색과 주황색은 각각 2개의 배치 데이터를 나타내며, cell-type은 세포 유형을 나타냅니다. 두 배치에는 유사한 세포 유형이 있지만, 대규모 배치 효과로 인해 원래 동일한 세포 유형에 속했던 세포를 함께 모을 수 없었고, 기술적 요인이 생물학적 요인을 가리고 이후의 생물학적 연구가 불가능해졌습니다.

SCALEX 통합 후, 두 세포 배치가 잘 응집되었고 세포 유형에 따라 명확하게 분리되었습니다. 이는 SCALEX가 실제 응용 분야에서 중요하다는 것을 보여줍니다.

SCALEX의 중요한 장점 중 하나는 동일한 세포 유형을 가진 두 개의 데이터 배치를 처리할 수 있다는 것입니다.이러한 데이터를 부분 중복 데이터 세트라고 합니다. 아래 그림에서 보듯이, 오버랩 0은 두 배치의 세포 유형이 완전히 다르다는 것을 의미하고, 오버랩 4는 두 배치에 공유 세포 유형이 4개 있다는 것을 의미합니다.

결과에 따르면 두 개의 세포 배치에 동일한 세포 유형이 전혀 없더라도 SCALEX는 여전히 생물학적 차이점을 잘 유지할 수 있습니다. 즉, SCALEX는 서로 다른 세포 유형의 세포를 강제로 통합하지 않는 반면, 다른 유사한 방법은 세포 페어링을 찾는 데 의존하여 과도한 보정이 발생할 수 있습니다.
SCALEX의 또 다른 장점은 범용 인코더가 모델을 재교육하지 않고도 배치 효과 없이 새로운 데이터를 셀의 기존 잠재 공간에 직접 투사할 수 있다는 것입니다.아래 그림에서 보듯이, 참조 세포 아틀라스는 먼저 췌장 데이터 세트를 사용하여 훈련되고, 그런 다음 세 개의 새로운 데이터는 훈련된 인코더를 통해 세포 잠재 공간에 직접 투영됩니다. 그림 속 색상은 세포 유형을 나타내고, 회색 점은 구성된 참조 세포 유형을 나타냅니다. 그림에서 서로 다른 세포 유형이 각각의 위치에서 잘 분리되어 있는 것을 볼 수 있습니다.

특정 위치 주변의 참조 셀 레이블을 새 데이터 셀에 투영하면 SCALEX가 셀 유형에 자동으로 주석을 달 때 우수한 성능을 보인다는 것을 알 수 있습니다. 기존의 다른 방법과 비교했을 때, SCALEX는 매우 중요한 적용 분야를 가지고 있습니다.즉, 새로운 데이터를 구성된 데이터에 직접 투영하여 데이터 간의 비교 분석을 수행하는 데 도움이 됩니다.

또한, SCALEX는 대규모 데이터 처리에도 우수한 성능을 보입니다. 아래 그림은 SCALEX가 400만 개의 셀 데이터를 처리할 때 계산 시간이 수십 분을 넘지 않고 메모리 소모량이 100GB 미만임을 보여줍니다. 이는 SCALEX가 확장성이 뛰어나고 초대규모 단일 세포 데이터의 통합 분석에 사용될 수 있음을 보여줍니다.

SCALEX를 활용하여 우리는 두 개의 대규모 세포 지도를 구축했습니다. 하나는 40만 개 이상의 세포를 포함하는 인간 개체의 세포 지도입니다. 다른 하나는 86만 개 이상의 세포와 100개 이상의 샘플을 담은 COVID-19 PBMC 세포 지도입니다.

SPACE: 공간 전사체 데이터를 위한 인공지능 분석 도구

다음으로, 저희 팀이 최근 발표한 공간 전사체 분석 도구인 SPACE를 소개해드리겠습니다.

간단히 말해서, 공간 전사체학 기술은 세포의 유전자 발현 정보와 우주에서 세포의 구체적인 위치를 제공할 수 있습니다. 아래 그림은 전형적인 공간 전사체 결과를 보여줍니다. 왼쪽 그림에서 각 점은 세포를 나타내고, 색상은 세포 유형을 나타냅니다. 이러한 세포들은 유전자 발현의 차원 감소를 통해 클러스터링되어 UMAP 맵을 형성했습니다. 오른쪽 패널에는 마우스 배아 E16.5 데이터에서 각 세포의 실제 공간적 위치가 표시됩니다. 세포의 공간적 분포가 특이성이 좋은 것을 분명히 알 수 있습니다.

조직 연구는 항상 생명과학 연구의 핵심 이슈 중 하나였습니다. 생물학 연구의 장기적인 목표 중 하나는 조직의 구조와 기능 간의 관계를 이해하는 것이라고 할 수 있습니다. 이는 이해하기 쉽습니다. 예를 들어, 서로 다른 뇌 영역은 서로 다른 뉴런과 지지 세포로 구성되어 있으며, 이들은 복잡한 세포 간 상호 작용을 통해 서로 다른 기능을 수행합니다. 예를 들어, 어떤 영역은 기억을 담당하고, 어떤 영역은 학습을 담당하며, 어떤 영역은 운동 반응을 담당합니다.

그러므로,공간 전사체 분석의 핵심 문제는 공간에서 서로 다른 세포 유형이나 조직 모듈을 식별하는 것인데, 이 작업을 총칭하여 공간 클러스터링이라고 합니다.

이 작업은 두 가지 하위 작업으로 구성됩니다. 하나는 세포 유형을 식별하는 것이고, 다른 하나는 조직 모듈을 식별하는 것입니다.. 전자는 보다 직관적이며, 마우스 배아 데이터에서 보여지는 것과 같이 공간 전사체 데이터에서 다양한 세포 유형을 식별합니다. 후자는 비교적 추상적이어서 조직 구조보다 작은 조직 내의 영역을 식별하는 것과 관련이 있으며, 이러한 영역은 특정 기능을 하거나 세포로 구성될 수 있습니다.

다양한 연구에서 연구자들은 조직 모듈에 공간 영역이나 세포 틈새 등 서로 다른 이름을 붙였는데, 이 중에서 공간 영역이라는 용어가 더 일반적으로 사용됩니다. 일부 연구자들은 조직 모듈을 식별하는 것은 일관된 공간적 유전자 발현 특성을 가진 영역을 식별하는 것이라고 믿습니다.

하지만 이 개념에는 한계가 있습니다. 예를 들어, 아래의 그림 A는 두 지역 간에 유전자 발현에 상당한 차이가 있음을 보여주지만, 그림 B와 C에서는 지역 간 유전자 발현 분포가 완전히 깔끔하지 않고 혼동될 수 있습니다. 그림 B와 C는 공간 영역 개념으로는 해결할 수 없는 상황을 보여줍니다.

이 문제를 해결하기 위해 우리는 SPACE 방법을 제안합니다.공간 영역 문제는 상호 작용을 인식하는 셀 임베딩을 학습하여 해결됩니다.

SPACE는 그래프 자동 인코더 프레임워크를 사용하여 저차원 셀 임베딩을 학습합니다.

먼저, 공간적 전사체 데이터를 입력하고 각 세포의 공간적 위치를 기반으로 이웃 그래프를 구성합니다. 즉, 각 세포의 가장 가까운 이웃 세포를 연결하여 그래프를 형성합니다. 아래 그림에서 노드는 세포를 나타내며, 노드의 특징은 세포의 유전자 발현 특성을 나타냅니다. 우리는 이웃 그래프와 유전자 발현 프로파일을 3층 GAT 네트워크로 구성된 SPACE 인코더에 입력합니다.

인코더의 처리를 통해 각 노드의 내장된 표현을 얻고 두 개의 독립적인 디코더를 통해 이를 재구성할 수 있습니다.한 디코더는 저차원 세포 은닉층 표현을 이웃 그래프로 재구성하고, 다른 디코더는 세포의 유전자 발현 프로파일을 재구성합니다. SPACE 모델의 손실 함수는 이 두 재구성 손실의 합계입니다.

이 과정에서우리는 모델의 두 손실 함수의 가중치를 조정하기 위해 지각 필드 비율 매개변수 α를 설계합니다.

α 값이 작을 때,이 모델은 세포 자체의 유전자 발현을 재구성하는 데 더 초점을 맞추고 있으며, 얻은 세포 임베딩을 사용하여 세포 유형을 식별할 수 있습니다.α 값이 큰 경우,이 모델은 세포 간의 상호작용에 더 초점을 맞추고 있으며, 이때 얻은 세포 포매는 조직 모듈을 식별하는 데 사용될 수 있습니다. 저차원 세포 임베딩 Z에는 세포 상호작용에 대한 정보가 포함되어 있으므로 SPACE 상호작용-인지를 통해 얻은 저차원 임베딩 표현을 세포 임베딩이라고 합니다.


공간 세포 하위 유형을 식별하기 위해 마우스 1차 운동 피질 데이터 세트에 SPACE를 적용했습니다.

아래 그림에서 왼쪽 상단 모서리는 실제 조직에서 각 세포의 공간적 위치를 보여줍니다. 점은 세포를 나타내고 색상은 세포 유형을 나타냅니다. 이는 유전자 발현을 기반으로 생성된 UMAP 지도입니다. 왼쪽 아래의 두 그림은 SPACE로 식별된 공간 세포 하위 유형과 공간에서의 위치를 보여줍니다. 우리는 원래 연구에서 제공된 세포 유형(오른쪽 그림 참조)을 사용하여 이러한 공간 세포 하위 유형에 대한 혼동 행렬 분석을 수행했으며, 그 결과 두 유형은 일반적으로 일관성이 있는 것으로 나타났으며, 조정된 랜드 지수(ARI)는 0.6이었습니다. 동시에, SPACE는 별아교세포와 과아교세포를 더욱 세밀하게 구별하고 더 많은 세포 아형을 식별할 수 있습니다.

왼쪽 아래의 그림은 쥐의 1차 운동 피질의 조직 구조를 보여줍니다. 층은 피질 구조를 나타내고 WM은 백질을 나타냅니다. 1층부터 백색질까지의 층상 구조를 뚜렷하게 볼 수 있습니다. SPACE가 확인한 세 가지 별모양 세포 하위 유형은 유전자 발현만으로는 구별하기 어려웠고, UMAP 지도에서는 혼합되어 있었습니다.

그러나 이 세 가지 세포 하위 유형은 공간적 분포에서 명확히 구분됩니다. s1 세포 하위 유형은 주로 1층에서 4층 영역에 분포하고, s2는 주로 5층에서 6층 영역에 분포하고, s3는 주로 백질에 분포합니다. 우리는 이 세 가지 별모양 세포 아형을 둘러싼 세포 유형의 비율을 세었고, 그 결과는 이 계층화 규칙과 일치했습니다. 세 가지 세포 하위 유형은 유전자 발현에 있어서 유사했지만, 여전히 각자의 특정 고발현 유전자를 보였습니다.

SPACE가 확인한 세 가지 별모양 세포 하위 유형은 이전 연구 결과와 매우 일치합니다. 이전 연구에서는 성상세포와 신경 세포 사이에 상호작용이 존재하며, 성상세포의 계층화는 신경 세포의 계층화와 일치한다고 보고했습니다. 연구진은 신경 세포의 주요 요소를 제거함으로써 신경 세포의 층 구조가 파괴되고, 그에 따라 성상세포의 층 구조도 변화한다는 것을 발견했습니다. 이는 성상세포와 신경 세포 사이에 공간적으로 특정한 상호작용과 유전자 조절이 있다는 것을 시사합니다.

이 예에서 우리는 다음을 볼 수 있습니다.SPACE는 공간 정보를 효과적으로 활용하고 공간적 특성을 지닌 다양한 생물학적 세포 유형을 정확하게 식별할 수 있습니다.

이전 글에서는 SPACE가 지각장 비율 매개변수 α를 조정하여 모델의 최적화 방향을 변경한다고 소개했습니다. 즉, 세포 자체의 특성에 더 많은 주의를 기울여 세포 유형을 식별하거나 세포 간의 상호 작용 정보에 더 많은 주의를 기울여 조직 모듈을 발견할 수 있습니다.

동일한 데이터 세트에서α 값을 증가시킴으로써, SPACE는 조직 모듈을 성공적으로 발견했습니다.우리는 그것을 세포 공동체(줄여서 CC)라고 불렀습니다. 우리는 SPACE가 발견한 조직 모듈이 식별 가능한 경계를 가지고 있으며, 그 안의 세포 유형의 공간적 분포가 비교적 균일하고 일관적이라고 믿습니다. 우리는 SPACE가 발견한 세포 군집을 기존의 조직 구조와 비교하였고, 둘이 일대일 대응관계를 가지고 있음을 발견했습니다. 각 세포 군집은 서로 다른 세포 유형을 포함하고 있으며, 세포 군집 내에서 이러한 세포 유형의 공간적 분포는 비교적 균일합니다.

우리는 SPACE를 조직 모듈을 발견하기 위한 기존 방법과 비교하고 5개의 데이터 세트에 대한 테스트를 수행했습니다.결과에 따르면 SPACE는 2개 데이터세트에서는 기존 최고의 방법보다 성능이 뛰어나고, 나머지 3개 데이터세트에서는 최고의 방법과 비슷한 성능을 보입니다.또한, 일반적으로 사용되는 Visium 인간 뇌 데이터 세트에 대한 테스트와 분석을 수행했으며, 그 결과 SPACE는 단일 세포 분해능이 없는 공간 전사체 데이터에도 적용 가능하다는 것을 보여주었습니다.

또한, 우리는 SPACE_ng라는 테스트 모델을 소개합니다. 여기서 ng는 SPACE 모델에서 이웃 그래프 재구성 손실을 끄는 것을 나타냅니다. 결과는 SPACE_ng의 성능이 SPACE보다 훨씬 떨어진다는 것을 보여줍니다.

SPACE가 이웃 그래프를 재구성하여 조직 모듈의 성능을 잘 파악할 수 있다는 것을 더욱 잘 보여주기 위해 시뮬레이션 실험을 설계했습니다. 우리는 과아교세포를 선택하고 과아교세포 사이에 미세아교세포와 OPC를 고르게 분포시켜(아래 왼쪽 위 이미지 참조) 두 개의 조직 모듈을 형성했습니다.

이 두 조직 모듈의 대부분 세포가 과소돌기세포이고 매우 높은 유사성(협업 = 0.97)을 가지고 있기 때문에, 테스트 결과는 SPACE가 다른 방법보다 훨씬 우수하다는 것을 보여주지만, SPACE_ng는 두 조직 모듈을 구별할 수 없습니다.이는 SPACE 조직 인식 모듈의 성능이 이웃 그래프의 재구성에서 비롯된다는 것을 나타냅니다.

우리는 하위 분석에서도 비슷한 현상을 관찰했습니다. 즉, SPACE로 식별된 세포 군집의 특성은 공간 도메인에서처럼 단순히 일관된 공간적 유전자 발현으로 나타나는 것이 아니라, 이웃 세포 간의 유사한 상호 작용을 반영합니다.

아래 히트맵에서 각 열은 세포를 나타내며, 각 열의 색상은 해당 세포가 속한 세포 집단과 세포 유형을 나타냅니다. 각 행은 세포 유형을 나타내며 해당 세포 유형과 다른 세포 간의 이웃 상호 작용의 상대적 빈도를 보여줍니다. 이 열 지도를 통해 우리는 같은 세포 커뮤니티에 속하는 세포들은 이웃 상호작용에서 유사성을 보이고, 이 유사성은 특정 세포 유형과 무관하다는 것을 알 수 있습니다. 대조적으로, 다른 세포 집단에 속하는 세포들은 이웃 상호작용에서 더 큰 차이를 보였다.

우리는 코사인 유사도를 사용하여 세포 간 상호작용의 유사성을 추가로 정량적으로 계산했습니다. 연구 결과에 따르면, 같은 세포 집단의 세포들은 이웃 세포와의 상호작용에서 높은 유사성을 보인 반면, 다른 세포 집단의 세포들은 상대적으로 다른 세포간 상호작용을 보였습니다. 이러한 결과는 다음을 나타냅니다.SPACE가 발견한 세포 공동체는 단순히 공간적 유전자 발현 패턴이 아니라 근위 세포 상호작용 네트워크의 영향을 받습니다.

우리는 또 다른 마우스 태반 데이터 세트에서 비슷한 분석을 수행했습니다. 왼쪽 그림은 데이터 세트에서 각 세포 유형의 공간적 위치를 보여주고, 가운데 왼쪽 그림은 수동으로 주석을 단 마우스 태반 조직 구조이며, 가운데 오른쪽 그림은 SPACE에서 발견한 5가지 세포 집단을 보여줍니다. SPACE에서 발견한 세포 군집과 수동으로 주석을 단 조직 구조 사이에 일대일 대응 관계가 잘 형성되어 있음을 알 수 있습니다. 오른쪽 그림에서 보듯이, 우리는 각 세포 집단에 대해 특징적인 근위 세포 상호작용 네트워크를 구축하여 각 세포 집단 내에서의 고유한 세포 간 상호작용을 보여주었습니다.

CC1을 예로 들면, 이 공동체는 주로 모체 탈락막 부위에 위치해 있습니다. 우리는 CC1에서 S2 모체 탈피세포와 S2 당영양막세포 사이에 강력한 상호작용이 있다는 것을 발견했습니다. 이전 연구에 따르면 쥐의 임신 중에 당영양막세포가 모체의 탈락막 부위를 침범하여 그 안의 모체의 탈락막 세포와 상호작용을 일으켜 모체의 혈액을 태반으로 가져오는 동맥의 리모델링을 유발하는데, 이 과정은 정상적인 임신에 매우 중요합니다.

위의 분석으로부터 우리는 다음과 같은 결론을 내릴 수 있습니다.SPACE는 생명 과정에 중요한 영향을 미치는 생물학적 샘플 내의 세포 간 상호작용을 식별할 수 있습니다.따라서 우리는 다음과 같이 추측합니다.SPACE가 구축한 상호작용 네트워크는 리간드-수용체 기반 세포 통신 분석을 최적화하는 데 사용될 수 있습니다.

리간드-수용체 기반 세포 통신 분석은 단일 세포 데이터 분석에서 일반적인 방법으로, 두 세포의 리간드와 수용체의 유전자 발현을 기반으로 리간드-수용체 쌍을 통한 세포 통신 가능성을 추론합니다. 우리는 먼저 마우스 태반 데이터세트에서 흔히 사용되는 세포 간 소통 분석 방법인 CellChat을 사용하여 CC1의 세포 간 소통을 분석했습니다.

CellChat은 s3 모체 탈피 세포가 콜라겐 FN1 및 THBS와 같은 신호 전달 경로를 통해 P-TGC 세포 유형과 통신할 수 있다는 것을 발견했습니다. 그러나 이러한 신호 전달 경로는 실제로 발생하기 위해 물리적 접촉이 필요합니다. 그러나 우리는 두 세포 유형이 실제로 공간적 분포에서 상당히 멀리 떨어져 있다는 것을 발견했습니다(아래 그림의 오른쪽 하단 모서리 참조). 따라서 두 세포가 실제로 물리적으로 접촉할 가능성은 낮습니다.

이는 CC1에서 구축된 근위 세포 상호작용 네트워크에 의해서도 확인되었습니다. 파란색 상자는 상호작용이 일어날 가능성이 낮음을 보여줍니다.SPACE가 구축한 특징적인 근위 세포 상호작용 네트워크를 CellChat 세포 의사소통 분석에 도입하면 실제로 우주에서 발생할 수 없는 세포 의사소통 신호를 제외하는 데 도움이 되어 거짓 양성 신호를 효과적으로 줄일 수 있습니다.

경력

청화대학교와 국가막생물학중점실험실이 항저우에 막구조 및 인공지능생물학 연구센터를 설립했습니다.. 현재 이 팀은 인공지능과 생물학의 학제간 연구에 참여하는 전문가를 모집하고 있습니다. 저희는 이 분야에 관심이 있는 연구자 분들의 합류를 진심으로 초대합니다. 자세한 채용 내용을 확인하려면 아래 QR 코드를 스캔하세요.