독립적인 연구와 개발! 군 의학 연구소 팀은 단일 세포 다중 오믹스 데이터의 모자이크 통합에 사용할 수 있는 MIDAS를 제안했습니다.

우리 모두 알다시피, 세포는 생명의 가장 작은 구성 요소입니다. 인체에는 40~60조 개의 세포가 있으며, 이는 우리의 성장과 발달의 기초를 형성합니다. 단일 세포 수준에서 연구를 수행하는 것은 세포의 성장과 발달을 정확하게 이해하고 질병을 진단하고 치료하는 데 매우 중요합니다.
최근 몇 년 동안, 단일 세포 시퀀싱 기술이 분자생물학 연구의 주요 주제로 떠올랐습니다. 업계에서는 질병과 발달 등의 임상 및 기초 연구 문제를 중심으로 대량의 단일 세포 시퀀싱 데이터를 생성해 왔습니다. 하지만 다양한 오믹스 조합, 다양한 시퀀싱 기술, 다양한 시퀀싱 샘플에서 얻은 엄청난 양의 데이터는 바닥의 모자이크 타일처럼 분산되어 있고 다양합니다.이렇게 방대하고 복잡한 데이터를 통합하고 생물의학 연구를 수행하는 방법은 전 세계 과학자들이 직면한 공통적인 과제입니다.
이러한 과제를 극복하기 위해 최근 군사의학연구소의 Ying Xiaomin 팀과 Bo Xiaochen 팀은 네이처 바이오테크놀로지 해당 저널은 "MIDAS를 이용한 단일 셀 다중 모드 데이터의 모자이크 통합 및 지식 전달"이라는 제목의 연구 논문을 게재했습니다.본 연구에서는 단일 세포 다중 모달 오믹스(scMulti-omics) 데이터(즉, 서로 다른 데이터 세트가 일부 감지 모달리티만 공유함)의 모자이크 통합과 지식 전달을 위한 계산 도구인 MIDAS를 제안했습니다.자기 지도 학습과 정보 이론적 접근 방식을 바탕으로, 모달 정렬, 데이터 완성, 일괄 수정 등 단일 세포 다중 오믹스 모자이크 데이터의 보편적인 통합 기능을 최초로 실현하여, 대규모 다중 오믹스 세포 지도를 구축하고 대규모 단일 세포 다중 오믹스 분석 및 지식 전달을 실현하는 데 중요한 독창적 기술을 제공했습니다.
연구 하이라이트:
* 생성 인공지능 기반 신규 알고리즘 MIDAS 독자 개발
* 공통 단일세포 멀티오믹스 모자이크 데이터의 모달리티 정렬, 데이터 완성, 일괄 수정 등의 통합 기능을 최초로 구현
* 새로운 알고리즘은 세포의 기능과 분자적 조절 메커니즘을 밝히고 질병의 발생과 발달을 연구하는 데 매우 중요한 의미를 갖습니다.

서류 주소:
https://www.nature.com/articles/s41587-023-02040-y
공식 계정을 팔로우하고 "단일 셀"로 답글을 달면 전체 PDF를 받을 수 있습니다.
데이터 세트: 다중 데이터 세트, 다차원 평가 성능
본 연구에서는 MIDAS 모델의 장점을 다양한 측면에서 비교하기 위해 여러 데이터 세트를 구성했습니다.
먼저 MIDAS를 최신 방식과 비교해보면,이 연구에서는 완전 모드(모자이크 적분의 단순화된 형태)를 이용한 삼중 적분에서 MIDAS의 성능을 평가했습니다. 연구팀은 이 작업을 "직사각형 적분"이라고 명명했습니다. 연구팀은 두 개의 출판된 단일 세포 삼중 인간을 사용했습니다. 피비엠씨 데이터 세트(DOGMA-seq 및 TEA-seq)를 사용하여 각 세포의 RNA, ADT 및 ATAC를 동시에 측정하여 dogma-full 및 teadog-full 데이터 세트를 구성했습니다. 참고: PBMC는 말초혈액 단핵세포를 의미하며, 면역학 분야의 과학 연구 활동에 일반적으로 사용됩니다.
둘째, 모자이크 통합에서 MIDAS의 성능을 평가하기 위해,연구팀은 이전에 생성된 직사각형 데이터 세트를 기반으로 전체 모달 데이터 세트에서 여러 모달 배치 블록을 삭제하여 생성된 14개의 불완전한 데이터 세트를 추가로 구성했습니다.
셋째, MIDAS의 지식전달 능력을 연구하기 위하여,연구팀은 아틀라스 데이터 세트를 아틀라스 구축에 사용되는 참조 데이터 세트와 쿼리 데이터 세트로 다시 나누었습니다. 연구팀은 아틀라스에서 DOGMA-seq를 제거하여 atlas-no_dogma라는 참조 데이터 세트를 얻었습니다.
넷째, 연속적인 세포 상태 변화를 갖는 단일 세포 데이터 세트에서 MIDAS의 적용을 조사합니다.연구팀은 공개 scRNA-seq(단일 세포 RNA 시퀀싱)에서 얻은 세 가지 다른 샘플(ICA, ASAP 및 CITE)을 결합하여 인간 BMMC 모자이크 데이터 세트를 구축했습니다.
모델 아키텍처: 딥 생성 모델 MIDAS
MIDAS는 트랜스포사제 접근 가능 크로마틴(ATAC), RNA, 항체 유래 태그(ADT)의 측정값을 포함하는 불완전한 단일 세포 다중 모드 데이터의 공동 분포를 나타내는 심층적 생성 모델입니다.

구체적으로, MIDAS는 각 세포의 다중 모드 측정값이 딥 신경망을 기반으로 하는 두 가지 모드 독립적이고 분리된 잠재 변수(생물학적 상태 및 기술적 노이즈)를 통해 생성된다고 가정합니다.입력에는 다양한 단일 세포 샘플(배치)로 구성된 모자이크 피처-세포 수 행렬과 세포 배치 ID를 나타내는 벡터가 포함됩니다.이러한 단일 세포 샘플은 서로 다른 실험에서 나왔거나 다양한 시퀀싱 기술(예: scRNA-seq, CITE-seq, ASAP-seq, TEA-seq)을 적용하여 생성되었을 수 있으므로 기술적 노이즈, 모달리티 및 특성이 다를 수 있습니다.

MIDAS의 출력에는 생물학적 상태와 기술적 노이즈 행렬, 추정 및 일괄 수정된 카운트 행렬이 포함되며, 이를 통해 입력 데이터에서 누락된 모달리티와 특징이 보간되고 일괄 효과가 제거됩니다.이러한 출력은 클러스터링, 세포 유형 구분, 궤적 추론과 같은 다운스트림 분석에 사용될 수 있습니다.
MIDAS는 변형 자동 인코더(VAE) 아키텍처를 기반으로 하며 모듈식 인코더 네트워크와 디코더 네트워크를 갖추고 있습니다. 전자는 모자이크 입력 데이터를 처리하고 잠재 변수를 추론할 수 있으며, 후자는 잠재 변수를 사용하여 관찰된 데이터의 생성 프로세스를 시작할 수 있습니다. MIDAS는 자기 지도 학습을 사용하여 잠재 공간에서 다양한 모달리티를 정렬하고 보간 및 변환과 같은 다운스트림 작업에서 교차 모달 추론을 개선합니다. 또한, 정보 이론적 방법을 적용하여 생물학적 상태와 기술적 노이즈를 분리하고 배치 수정을 더욱 효과적으로 달성합니다.
연구진은 이러한 요소들을 이 연구의 최적화 목표에 결합하고 확률적 경사 변형 베이즈(SGVB)를 통해 MIDAS의 확장 가능한 학습과 추론을 달성했으며, 이를 통해 대규모 모자이크 통합과 단일 셀 다중 모드 데이터의 맵 구축이 가능해졌습니다. 또한, 구축된 아틀라스의 지식을 다양한 모달리티 조합을 가진 쿼리 데이터 세트로 전송하기 위해 연구진은 모델 매개변수와 셀 레이블을 각각 전송하기 위한 전이 학습과 교차 참조 매핑 방식을 개발했습니다.
연구 결과: MIDAS는 다재다능하고 효율적입니다.
이 연구 결과는 MIDAS가 강력하고 다재다능하며 효율적인 단일 셀 다중 모드 통합 도구임을 보여줍니다.
연구팀은 배치 효과를 제거하고 생물학적 신호를 보존하는 측면에서 MIDAS의 성능을 최근에 발표된 9가지 방법과 비교했습니다.
결과는 다음과 같습니다MIDAS는 이상적으로 배치 효과를 제거하고 Dogma-Full 및 Teadog-Full 데이터 세트에 대한 셀 유형 정보를 보존하는 반면, 다른 방법의 성능은 약간 떨어집니다.예를 들어, BBKNN+average, MOFA+, PCA+WNN, Scanorama-embed+WNN, Scanorama-feat+WNN은 서로 다른 배치를 잘 혼합하지 못했으며, PCA+WNN과 Scanorama-feat+WNN으로 생성된 세포 클러스터는 세포 유형과 크게 일치하지 않았습니다.

평가 및 다운스트림 분석을 위해 얻은 결과
배치 정렬 측면에서 MIDAS는 다양한 배치의 세포를 매우 잘 정렬하고 세포 유형 레이블을 사용하여 일관되게 그룹화할 수 있습니다.다른 방법에서는 서로 다른 세포 배치를 잘 섞지 못하고 세포 유형과 크게 일치하지 않는 클러스터가 생성됩니다. scIB 벤치마크에 따르면 MIDAS는 다양한 모자이크 작업에서 안정적인 성능을 보이며, 전체 점수가 다른 방법보다 훨씬 높습니다.

정성적, 정량적 성과 평가 점수
지식 전달 능력 측면에서 연구자들은 각 쿼리 데이터 세트를 참조 데이터 세트와 정렬하고 k-최근접 이웃(k-nearest neighbors)을 사용했습니다.kNN) 세포 유형 라벨을 전송하는 알고리즘입니다. 생물학적 상태를 매핑하고 시각화한 후, 다양한 쿼리 데이터 세트의 교차 참조 매핑 결과가 Dogma-full 데이터 세트를 통해 얻은 맵 통합 결과와 일관되고 매우 일관됨을 알 수 있습니다. MIDAS는 견고하고 정확한 태그 전송을 지원하여 신규 통합 및 다운스트림 분석이 필요 없습니다.따라서 MIDAS를 사용하면 값비싼 신규 교육 비용이나 복잡한 다운스트림 분석 없이도 아틀라스 수준의 지식을 다양한 형태의 사용자 데이터 세트로 전송할 수 있습니다.

요약하자면, MIDAS는 단일 세포 모자이크 데이터 생성 프로세스를 모델링함으로써 생물학적 상태와 기술적 노이즈를 입력에서 정확하게 분리하고 다중 소스 및 이기종 통합 분석을 지원하기 위해 모달리티를 견고하게 조정할 수 있습니다. MIDAS는 정확하고 안정적인 결과를 제공하며 다양한 모자이크 통합 작업을 수행할 때 다른 방법보다 우수한 성능을 발휘합니다.
또한 MIDAS는 참조 데이터 세트의 지식을 효율적이고 유연하게 쿼리 데이터 세트로 전송하여 새로운 다중 오믹스 데이터를 쉽게 처리할 수 있도록 해줍니다. MIDAS는 탁월한 차원 감소 및 일괄 보정 성능을 통해 정확한 다운스트림 생물학적 분석을 지원합니다. MIDAS는 모자이크 데이터의 클러스터링 및 세포 유형 식별을 활성화하는 것 외에도 순차적 상태를 가진 세포의 의사 시간적 분석을 지원할 수 있으며, 이는 RNAomics 데이터가 없는 경우 특히 가치가 있습니다. MIDAS는 서로 다른 조직 간에 지식을 전송할 때 이기종 데이터 세트를 정렬하고 새로운 유형을 포함한 세포 유형을 식별할 수 있습니다.
단일 세포 다중 오믹스 분석은 계속 발전하고 있습니다.
우리가 모래알 하나를 통해 세상을 볼 수 있는 것처럼, 과학자들은 작은 세포 안에서 다중 우주, 보다 정확히는 '다중 오믹스'를 볼 수 있습니다.
단일 세포의 유전체, 전사체, 후성유전체 및 기타 특징을 연구하는 데 다양한 기술이 사용되며, 각 기술은 그 자체로도 유익하지만, 다중 오믹스라고 알려진 이러한 기술을 결합한 분석을 통해 보다 완전한 그림을 얻을 수 있습니다.현재, 단일 세포 다중 오믹스에 힘입어 세포 생물학과 전환 연구가 상당한 진전을 이루었지만, 데이터 통합과 분석은 여전히 많은 과학자들에게 과제로 남아 있습니다.
이를 바탕으로 위에서 언급한 잉샤오민 팀과 보샤오천 팀 외에도 이를 따르는 연구팀과 회사가 늘어나 더 효율적이고 간단한 데이터 처리 방법을 모색하고 있습니다.
예를 들어,10x Genomics의 크롬 단일 세포 플랫폼과 같은 분석 방법은 계속 확장되어 다양한 조합으로 여러 세포 특성을 평가할 수 있게 되었습니다.전체 전사체 유전자 발현, 단백질 발현, 전장 페어링 포함 티씨알 BCR 시퀀싱, 항원 특이성, 개방 크로마틴 분석. 그 중 셀 레인저 이 솔루션은 무료로 사용하기 쉬운 분석 파이프라인 세트를 사용하여 Chromium 단일 세포 데이터를 분석하고, 원시 데이터를 처리하고 유전자 수를 세기 위한 정렬을 수행할 수 있습니다. 또한 Cell Ranger는 클라우드 분석 플랫폼과 통합되어 데이터를 모니터링, 관리 및 처리할 수도 있습니다.
예를 들어,2022년 5월 2일, 베이징대학교/창핑연구실의 가오거 연구팀은 Nature Biotechnology에 "그래프 연결 임베딩을 통한 다중 오믹스 단일 세포 데이터 통합 및 규제 추론"이라는 제목의 연구 논문을 발표했습니다.그래프 결합 전략에 기반한 GLUE라는 딥러닝 방법이 제안되었는데, 이는 처음으로 수백만 개의 단일 세포 다중 오믹스 데이터에 대한 비지도 정밀 통합과 규제 추론을 달성했습니다.
이러한 생물정보학 도구와 소프트웨어의 지속적인 개발은 연구자들이 복잡한 다중 오믹스 데이터 세트를 해석하고 세포 생물학의 발전을 촉진하는 데 도움이 될 것입니다. 세포의 기능과 분자적 조절 메커니즘을 밝히고, 질병의 발생과 발달을 연구하는 데 큰 의의가 있으며, 궁극적으로는 사람들에게 이바지할 수 있습니다.
참고문헌:
1.https://www.chinagut.cn/articles/ss/02bc1e86e3734acebff57395d6e044a6
2.https://m.ebiotrade.com/newsf/2023-10/20231023151001602.htm
3.https://news.bioon.com/article/e49a810955a1.html
4.https://m.thepaper.cn/newsDetail_forward_26137031