HyperAIHyperAI

Command Palette

Search for a command to run...

기존 멀티모달 통합의 한계를 뛰어넘다! MIT는 셀 공유 정보와 셀별 정보를 명확하게 분리하는 APOLLO 프레임워크를 제안합니다.

Featured Image

단일 세포 생물학 연구에서 측정 기술의 급속한 발전은 과학적 탐구의 영역을 끊임없이 확장하고 있습니다. 멀티플렉스 이미징, 단일 세포 전사체 시퀀싱(scRNA-seq), 크로마틴 개방 시퀀싱(scATAC-seq), 단백질 발현량 검출 등의 분야에서 이루어진 획기적인 발전은 연구자들이 전사 조절, 크로마틴 상태, 단백질 발현, 형태 구조 등 다양한 차원에서 단일 세포를 종합적으로 관찰할 수 있도록 해줍니다. 이러한 다중 모달 데이터는 생명의 코드를 여러 수준에서 해석할 수 있게 해주며, 이들의 상호 보완적인 통합은 세포 이질성을 밝히고 질병 메커니즘을 탐구할 수 있는 전례 없는 기회를 제공합니다.

하지만 현재의 분석 방법은 이처럼 대량의 데이터를 처리하는 데 있어 여전히 상당한 한계를 가지고 있습니다.주류 전략은 종종 각 모드를 개별적으로 분석한 다음 비교하는 방식을 사용하는데, 이는 비효율적일 뿐만 아니라 모드 간의 심층적인 상관관계를 파악하기 어렵게 만듭니다.또 다른 접근 방식은 표현 학습을 통해 다중 모달 데이터를 동일한 잠재 공간에 통합하지만, 종종 공유 정보를 모달리티별 정보와 혼동하여 각 차원이 세포 기능에 기여하는 고유한 부분을 모호하게 만듭니다.

이 문제는 특히 scATAC-seq 및 scRNA-seq 쌍 데이터의 통합 분석에서 두드러지게 나타납니다.기존 방법들은 종종 크로마틴 접근성을 유전자 수준으로 세분화하여 유전자 발현과 비교하는 방식을 사용합니다. 이러한 방식은 문제를 단순화하지만, 크로마틴 수준의 미세 구조 정보를 놓칠 수 있으며, 비교적 균일한 특성을 가진 데이터 유형에만 적용 가능합니다. 선형 모델이나 생성적 적대 신경망(GAN)과 같은 보다 복잡한 통합 방법들은 영상 데이터와 같은 비정형 데이터에 적응하는 데 어려움을 겪거나, 공통 정보와 특이적 정보를 제대로 구분하지 못하여 대규모 바이오뱅크에서 요구되는 다중 모달 데이터 분석의 증가하는 수요를 충족시키지 못하고 있습니다.

따라서 단일 세포 기술의 지속적인 발전과 데이터 규모의 급속한 증가에 따라, 공유 정보와 각 모달리티별 정보를 명확하게 분리하면서 다중 모달 데이터를 효율적이고 자동으로 통합하는 방법은 단일 세포 생물학이 직면한 핵심 과제가 되었습니다.

이러한 문제를 해결하기 위해 MIT와 취리히 연방 공과대학교(ETH Zurich)의 공동 연구팀은 APOLLO(잠재 공간 최적화를 통해 학습된 부분적으로 겹치는 잠재 공간을 가진 오토인코더)라는 범용 딥러닝 컴퓨팅 프레임워크를 제안했습니다.이 프레임워크는 공유 정보와 양식별 정보를 명시적으로 모델링함으로써 세포 상태 및 그 조절 논리에 대한 보다 포괄적이고 정확한 분석을 위한 실현 가능한 기술적 경로를 제공합니다.

"부분적으로 공유되는 다중 모달 임베딩은 세포 상태의 전체적인 표현을 학습한다"라는 제목의 관련 연구 결과가 Nature Computational Science에 게재되었습니다.

연구 하이라이트:

* 본 연구에서는 멀티모달 데이터에서 "공유 정보"와 "모달리티별 정보"를 자동으로 명시적으로 분리할 수 있는 범용 딥러닝 프레임워크인 APOLLO를 제안합니다.

* APOLLO는 각 모달리티에 오토인코더를 장착하고 2단계 학습 전략을 사용하여 부분적으로 겹치는 잠재 공간을 학습함으로써 여러 모달리티에서 공통적으로 포착되는 생물학적 신호를 효과적으로 식별하고 구별합니다.

APOLLO는 단백질의 세포 내 위치 차이와 다양한 세포 소기관의 형태학적 특징 사이의 연관성을 밝혀낼 수 있으므로, 순수 오믹스 데이터에 기반한 분석에서 공간 형태학 분야로 분석 범위를 확장할 수 있습니다.

서류 주소:
https://www.nature.com/articles/s43588-025-00948-w
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "APOLLO"라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.

데이터셋: 시퀀싱 및 이미징을 포괄하는 종합적인 검증

APOLLO 프레임워크의 성능을 종합적으로 평가하기 위해 본 연구에서는 시퀀싱 및 이미징 기술을 모두 포함하는 여러 공개된 멀티모달 단일 세포 데이터 세트를 사용했습니다.

염기서열 분석 데이터와 관련하여,연구진은 먼저 SHARE-seq 기술로 측정한 단일 세포 전사체(scRNA-seq) 및 염색질 접근성(scATAC-seq) 쌍 데이터를 사용하여 APOLLO가 전사체와 염색질 접근성 모두에서 포착된 유전자 활동과 둘 중 한 가지 방식에서만 포착된 유전자 활동을 자동으로 식별하고 구별할 수 있는지 여부를 검증했습니다.

둘째로, 연구진은 CITE-seq를 통해 얻은 scRNA-seq 데이터와 세포 표면 단백질 풍부도 데이터를 쌍으로 사용하여 해당 모델이 시퀀싱 데이터에 적용 가능한지 추가적으로 검증했습니다.CITE-seq 데이터 세트는 마우스 비장과 림프절에서 추출되었으며, 독립적인 실험 처리를 거친 두 그룹의 야생형 마우스 샘플을 포함합니다.이 방법은 세포 유형 식별 능력을 평가하는 데 사용될 수 있을 뿐만 아니라, 서로 다른 마우스 공급원으로 인해 발생하는 실험 배치 효과도 밝혀낼 수 있습니다.

영상 데이터와 관련하여,연구진은 건강한 사람, 수막종, 교종, 두경부 종양의 네 가지 진단 범주로 분류된 40명의 환자로부터 얻은 32,345개의 말초혈액 단핵세포(PBMC)를 포함하는 다중 영상 데이터 세트를 소개했습니다. 각 환자로부터 서로 다른 항체 조합을 기반으로 두 세트의 영상 데이터를 수집했습니다. 한 세트는 DAPI를 사용하여 크로마틴을 표지하고 CD4, CD8, CD16 항체 염색과 조합했으며, 다른 세트는 DAPI 염색과 함께 라민, CD3, γH2AX 항체 염색을 조합했습니다.

이 데이터셋을 사용한 테스트 결과는 다음과 같습니다.APOLLO는 크로마틴 구조 및 단백질 위치 파악에 있어 두 가지 방식 간에 공유되는 세포 상태 정보뿐만 아니라 단일 방식으로만 포착되는 형태학적 특징도 식별할 수 있습니다.또한, 이 연구는 미세소관 및 소포체와 같은 추가적인 세포 염색 표지자를 결합하고 인간 단백질 아틀라스(HPA)의 다양한 영상 데이터를 활용하여 APOLLO가 단백질의 세포 내 위치 차이와 다양한 세포 구획의 형태학적 특징 간의 연관성을 밝히는 데 사용될 수 있음을 입증했습니다.

APOLLO 모델: 잠재 최적화 전략을 사용하는 오토인코더

기존 멀티모달 통합 방법에서 흔히 발생하는 문제, 즉 공유 정보와 모달리티별 정보를 혼동하는 문제를 해결하기 위해 본 연구에서는 APOLLO 프레임워크를 제안합니다. 이 프레임워크는 잠재 최적화를 활용하여 부분적으로 중첩된 잠재 공간에서 오토인코더를 학습함으로써, 여러 모달리티에 걸쳐 공유 정보와 모달리티별 정보를 자동으로 학습하고 효과적으로 분리하는 것을 목표로 합니다. 모든 잠재 차원을 균일하게 정렬하는 기존 오토인코더와 달리,APOLLO는 잠재적 차원 중 일부에 대해서만 교차 모달 정렬을 수행하고 나머지 차원은 각 모달리티에 특정한 정보에 사용함으로써 모델 설계에서 공유 정보와 특정 정보를 명확하게 구분합니다.

모델 아키텍처 측면에서 보면,APOLLO는 각 데이터 유형별로 오토인코더를 갖추고 있으며, 작업에 필요한 경우 추가 디코더를 도입할 수 있습니다.인코더와 디코더는 특정 모달리티에 적합한 신경망 구조를 사용합니다. 예를 들어, 영상 데이터에는 컨볼루션 신경망을, 유전자 발현 데이터에는 완전 연결 신경망을 사용하여 각 모달리티의 데이터 특성을 최대한 포착합니다. 잠재 공간은 공유 잠재 특징과 모달리티별 잠재 특징의 두 부분으로 명확하게 구분됩니다. 공유 잠재 공간의 차원은 일반적으로 모달리티별 잠재 공간보다 훨씬 크게 설정하여 모달리티 간 공유 정보를 충분히 표현할 수 있도록 합니다.

아래 그림에서 보는 바와 같이 APOLLO의 학습 과정은 두 단계로 구성됩니다.첫 번째 단계는 각 모달리티에 대한 디코더를 학습하는 데 중점을 두는 동시에 잠재 공간을 업데이트합니다.핵심 목표는 디코더가 잠재 공간에서 입력 데이터를 정확하게 재구성할 수 있도록 하는 것입니다. 공유 정보 표현을 강화하고 교차 모달 예측을 달성해야 하는 작업의 경우, 공유 잠재 공간을 각 모달리티에 각각 매핑하는 두 개의 추가 디코더를 도입하고, 재구성 손실을 최소화하여 학습을 완료합니다.

두 번째 단계는 모달리티별 인코더를 학습시키는 것입니다.각 데이터 모드는 해당 잠재 공간에 매핑됩니다. 평균 제곱 오차를 최소화함으로써, 훈련에 사용되지 않은 샘플의 잠재 공간 임베딩을 추론하여 모델의 일반화 능력을 향상시킵니다.

APOLLO는 2단계 교육 과정을 운영합니다.

모델 검증을 위해, 본 연구는 먼저 실제 구조가 알려진 5개의 시뮬레이션 데이터셋을 사용하여 APOLLO의 디커플링 성능을 테스트했습니다.결과는 공유 잠재 특징과 특정 잠재 특징 간의 의존성 여부와 관계없이 모델이 안정적인 성능을 유지할 수 있음을 보여줍니다.실제 데이터를 이용한 추가 검증 결과, APOLLO의 부분 정보 공유에 대한 명시적 학습은 다중 모달 정보를 분리할 뿐만 아니라 크로마틴 이미징에서 미검출 단백질을 예측하는 것과 같은 정확한 교차 모달 예측을 달성할 수 있음을 보여줍니다.

전반적으로 APOLLO는 부분적으로 공유되는 잠재 공간을 학습함으로써 멀티모달 데이터 세트에서 공유 정보와 모달리티별 정보를 효과적으로 분리하고 해석하여 생물학적 메커니즘을 밝히는 일반적인 프레임워크를 제공합니다.

기존의 다중 모드 통합 프레임워크를 넘어, 세포 상태에 대한 보다 포괄적인 이해가 필요합니다.

APOLLO 모델의 보편성과 핵심 장점을 종합적으로 평가하기 위해, 쌍 시퀀싱 데이터 통합, 크로마틴 및 단백질 영상 통합, 교차 모달 예측, 형태학적 특징 인식, 단백질 세포 내 위치 탐색 등 5가지 방향을 중심으로 일련의 실험을 설계했습니다.

쌍을 이루는 시퀀싱 데이터 통합에서SHARE-seq 실험 결과, 공유 공간에 모달리티별 공간을 추가하면 세포 유형 분류의 정확도가 크게 향상되는 것으로 나타났으며, 이는 특정 공간이 공유 공간에 포함되지 않은 생물학적 정보를 포착할 수 있음을 입증합니다.

잠재적 공간 해석 결과, RNA 특이적 공간에는 세포 주기 관련 유전자가, ATAC 특이적 공간에는 전사 조절과 관련된 개방형 크로마틴 영역이, 그리고 공유 공간에는 알려진 전사 인자와 조절 경로가 풍부하게 존재하여 분리 결과의 생물학적 중요성을 입증했습니다. CITE-seq 실험에서,APOLLO는 세포 유형과 배치 효과를 공통 공간과 RNA 특이적 공간으로 성공적으로 분리했습니다.기존 통합 방법으로는 이러한 종류의 분리를 달성할 수 없으므로, 시퀀싱 데이터 통합에 있어 이 모델의 고유한 장점이 부각됩니다.

각 잠재적 공간에서 차등적으로 발현되는 유전자
CITE-seq 데이터셋에 APOLLO 적용

영상 데이터와 관련하여,APOLLO는 훈련에 참여하지 않은 환자의 세포 이미지도 정확하게 재구성할 수 있습니다.크로마틴에서 미검출 단백질을 예측하는 교차 모달 작업에서 APOLLO는 기존 이미지 복원 방법보다 훨씬 뛰어난 성능을 보였습니다.후속 표현형 분류 결과, 예측된 단백질 이미징을 기반으로 한 분류 정확도가 실제 이미징의 정확도와 유사했으며, 특히 CD3 단백질에서 가장 우수한 예측 성능을 보여 예측 결과가 생물학적 발견에 효과적으로 활용될 수 있음을 확인했습니다.

다양한 입력 유형에 따른 모델 예측 성능 비교

형태학적 특징 인식 작업에서,공유 공간은 주로 염색질 형태학적 특징(예: 핵 면적 및 이질염색질 부피)을 포착하는 반면, γH2AX 초점 수와 같은 단백질 특이적 특징은 해당 특정 공간에만 존재합니다. 특징 제거 실험 결과, 이 특징을 제거하면 표현형 분류 정확도가 크게 감소하는 것으로 나타나, 이러한 분리의 정확성을 더욱 입증했습니다.

각 대표 형태의 시간 비율을 보여주는 히트맵

단백질의 세포 내 위치 연구에서APOLLO를 U2OS 세포 영상 데이터에 적용한 결과, 핵 내 단백질 위치의 차이가 서로 다른 세포 소기관의 특성에 의해 포착될 수 있음을 알 수 있었습니다. 예를 들어, DDB1의 핵 위치는 소포체 및 미세소관 형태와 관련이 있는 반면, CLNS1A는 핵 형태와만 관련이 있습니다. 이 결과는 다음과 같은 점을 시사합니다...이 모델은 다양한 영상 조합으로 확장될 수 있으며, 단백질 위치와 세포 형태 사이의 관계를 이해하는 데 새로운 관점을 제공합니다.

APOLLO는 단백질의 세포 내 위치 결정에 관여하는 다양한 세포 구성 요소를 모방합니다.

단일 세포 다중 모달 데이터 통합 구현

단일 세포 다중 모달 데이터의 통합은 세포 이질성 분석, 질병 메커니즘 규명, 정밀 의학 발전 촉진을 위한 핵심 기술 방향으로 자리 잡고 있으며, 전 세계 학계의 폭넓은 관심을 받고 있습니다.

예를 들어, 케임브리지 대학교 배브라함 연구소의 피터 러그-건 연구팀이 개발한 scMTR-seq 기술은...이번 연구에서는 최초로 단일 세포 수준에서 6가지 히스톤 변형과 전체 전사체를 동시에 포착하는 데 성공했습니다.그들은 10년 동안 지속되었던 후성유전학 연구 분야의 기술적 병목 현상을 극복했습니다.

논문 제목:

scMTR-seq를 이용한 단일 세포 내 다중 히스톤 변형 및 전사체 조합 프로파일링
논문 링크:

https://www.science.org/doi/10.1126/sciadv.adu3308

스탠포드 대학교 연구팀이 제안한 CellFuse 프레임워크는 지도 대조 학습을 기반으로 공유 임베딩 공간을 구축하며, 특징 중복이 제한적인 멀티모달 통합 시나리오에 특화되어 설계되었습니다.이 시스템은 정확한 세포 유형 예측과 다양한 방식 및 실험 조건 간의 원활한 통합을 가능하게 합니다.건강한 말초혈액 단핵세포(PBMC), 골수, 림프종에 대한 CAR-T 치료, 종양 조직을 포함한 여러 데이터 세트에 대한 테스트 결과, 이 프레임워크가 통합 품질과 운영 효율성 측면에서 기존 방법보다 우수함을 입증했습니다.

논문 제목:

CellFuse는 단일 세포 및 공간 단백질체학 데이터의 다중 모드 통합을 가능하게 합니다.
논문 링크:

https://doi.org/10.1101/2025.07.23.665976

한편, 세계적인 생명공학 및 헬스케어 기업들은 최첨단 연구를 실용화로 전환하기 위해 임상 적용, 신약 개발, 정밀 의학 등 핵심 시나리오에 집중하여 단일 세포 다중 모드 데이터 통합 기술의 도입을 가속화하고 있습니다. 독일 기업 바이오엔텍(BioNTech)은 이 기술을 종양 면역 치료 및 맞춤형 백신 개발에 적용했습니다. 단일 세포 RNA 시퀀싱, 단백질 발현 프로파일링, 공간 전사체 데이터를 통합하여 종양 미세 환경의 세포 이질성을 정밀하게 분석하고, 주요 면역 세포 아형 및 관련 바이오마커를 식별함으로써 맞춤형 종양 백신 설계 및 최적화를 위한 핵심 데이터를 제공하고, 백신의 표적화 및 효능을 크게 향상시키고 있습니다.

다중 모드 통합 기술의 지속적인 발전에 힘입어 단일 세포 수준에서 생명 현상을 해독하는 것이 결국에는 비전에서 현실로 옮겨가게 될 것이며, 이는 정밀 의학의 미래에 더욱 강력한 추진력을 불어넣을 것으로 예상됩니다.