Command Palette
Search for a command to run...
컬럼비아 대학교와 스탠퍼드 대학교가 협력합니다! Squidiff는 다중 시나리오 전사체 시뮬레이션을 지원하여 정밀 의학 및 우주 의학 발전에 기여합니다.

세포생물학 연구에서 살아있는 세포는 항상 화학적 평형과는 동떨어진 복잡한 소산계이며, 외부 자극에 대한 이들의 집단적 반응은 과학자들이 끊임없이 탐구하는 핵심적인 과학적 질문으로 남아 있습니다. 이러한 반응은 내부 조직 이질성과 외부 신호에 의해 공동으로 조절될 뿐만 아니라, 예측 불가능한 비선형적 동적 특성을 나타내는 경우가 많습니다. 단일 세포 시퀀싱 기술을 통해 세포의 이질적인 구성을 편견 없이 분석할 수 있지만, 자극 후 전체 전사체의 변화를 정확하게 추적하는 것은 여전히 상당한 어려움에 직면해 있습니다.
이러한 한계를 극복하기 위해 과학계는 이전에 scGen 및 CellOT와 같은 다양한 기계 학습 모델을 개발했습니다. 그러나 이러한 모델은 고해상도 동적 전이 예측 성능이 낮고, 대부분의 모델은 특정 작업에 특화된 설계에 의존하기 때문에 적용 가능성이 크게 제한됩니다. 확산 모델의 등장은 이 분야에 새로운 돌파구를 가져왔습니다. 최적화된 데이터를 반복적으로 생성함으로써 더욱 풍부한 데이터 분포 특성을 포착할 수 있으며, 이는 앞서 언급한 문제 해결에 새로운 접근법을 제공합니다. 현재 일부 연구에서는 확산 모델과 변분 자동 인코더(VAE)를 결합하거나 잠재 공간에서 확산 과정을 구현하여 고충실도 단일 세포 데이터를 성공적으로 생성하고 모델링 효율성을 개선하는 시도가 진행 중입니다.그러나 유전자 교란 반응 예측, 약물 교란 반응 예측, 세포 발달 궤적 추론과 같은 주요 시나리오에 확산 모델을 적용하는 것은 여전히 미개발 분야입니다..
이러한 맥락에서,컬럼비아 대학, 스탠포드 대학 등의 연구팀은 Squidiff 계산 프레임워크를 개발했습니다.이 프레임워크는 조건부 잡음 제거 확산 암묵적 모델을 기반으로 구축되었으며, 분화 유도, 유전자 교란 및 약물 치료 하에서 다양한 세포 유형의 전사체 반응을 예측할 수 있습니다.이 기술의 핵심 장점은 유전자 편집 도구와 약물 화합물에서 얻은 확실한 정보를 통합하는 능력에 있습니다.줄기세포 분화 예측에 있어 스퀴디프는 일시적인 세포 상태를 정확하게 포착할 뿐만 아니라, 비가산적 유전자 교란 효과와 세포 특이적 반응 특성을 파악할 수 있습니다. 연구팀은 스퀴디프를 혈관 오가노이드 연구에 적용하여 다양한 세포 유형에 대한 방사선 노출 영향을 성공적으로 예측하고 방사선 보호 약물의 보호 효능을 평가했습니다.
"스퀴디프: 확산 모델을 사용하여 세포 발달과 교란에 대한 반응을 예측하다"라는 제목의 관련 연구 결과가 Nature Methods에 게재되었습니다.

서류 주소:
https://www.nature.com/articles/s41592-025-02877-y
공식 WeChat 계정을 팔로우하고 백그라운드에서 "Squidiff"를 답글하면 전체 PDF를 받을 수 있습니다.
더 많은 AI 프런티어 논문:
https://hyper.ai/papers
데이터 세트: 다양한 시나리오에 대한 전체 범위 + 표준화된 품질 관리
Squidiff 프레임워크의 성능을 완전히 훈련하고 검증하려면연구팀은 세포 분화, 유전자 교란, 약물 치료, 혈관 기관체의 방사선 반응과 같은 주요 연구 방향을 포괄하는 시뮬레이션 데이터와 실제 실험 데이터를 모두 포함하는 다중 시나리오 데이터 세트를 구축했습니다.모든 데이터는 통합 품질 관리 절차를 거쳤습니다. 미토콘드리아 유전자 비율이 20%를 초과하거나 유전자 수가 1,000개 미만인 저품질 세포는 걸러내고, 발현이 낮은 유전자는 제거했으며, 일부 경우에는 이중 세포 및 스트레스 관련 유전자를 추가로 제외했습니다. 마지막으로, 데이터세트 간 비교성을 보장하기 위해 로그 정규화를 사용하여 시퀀싱 깊이 차이를 보정했습니다.
시뮬레이션된 데이터와 관련하여 연구팀은 계층적 감마-푸아송 분포를 기반으로 하는 Splatter 도구를 사용하여 합성 단일 세포 RNA 시퀀싱 데이터를 생성하고, 실제 scRNA-seq의 발현 이질성과 분산 특성을 시뮬레이션하여 추가적인 생물학적 전처리 없이도 전사체 재구성 및 추론에서 모델의 기본 기능을 검증했습니다.
세포 분화 데이터는 0일(iPSC 상태)부터 3일(정의된 내배엽 상태)까지 4,800개 세포의 전사체를 포함하는, 인간 유도만능줄기세포(iPSC)의 내배엽 분화에 대한 공개적으로 이용 가능한 데이터세트에서 파생되었습니다. 이 모델은 0일과 3일 데이터를 훈련 세트로, 1일과 2일 데이터를 테스트 세트로 사용했습니다. 모델링을 위해 상위 203개의 초가변 유전자를 선택했습니다. 훈련 중에 가우시안 노이즈를 도입하고 1,000개의 확산 단계를 설정했습니다. 잠재 표현의 평균 차이를 계산하여 분화 의미 변수를 얻은 다음 선형 보간을 사용하여 0일부터 3일까지의 발달 궤적을 시뮬레이션하여 동적 분화 과정에 대한 모델의 예측 능력을 평가했습니다.
유전자 교란 데이터는 K562 세포에 대한 CRISPR 스크리닝 실험에서 나왔습니다.이 연구에는 ZBTB25 및 PTPN12 유전자 녹아웃 세포와 야생형 대조군을 모두 포함하여 약 10,000개의 세포가 포함되었습니다. 데이터는 "PTPN12 + 대조군", "ZBTB25 + 대조군", 그리고 "PTPN12 + ZBTB25"의 세 그룹으로 나뉘었습니다. 처음 두 그룹은 훈련에, 마지막 그룹은 검정에 사용되었습니다. 훈련 후, 유전자 교란 특이적 변수를 추출하고 결합하여 이중 유전자 교란의 조합으로 인한 전사체 변화를 시뮬레이션함으로써 모델의 비상가적 효과를 포착하는 능력을 검증했습니다.
약물 처리 데이터는 여러 세포와 약물 샘플을 통합합니다.여기에는 에토포사이드를 포함한 여섯 가지 약물로 치료한 교모세포종의 발현 프로파일과 약물 조합에 대한 흑색종의 반응 데이터가 포함됩니다. 학습 과정에서 모델은 각 약물에 대한 특정 교란 표현을 학습하고 sci-Plex3 데이터세트에서 미지의 약물 샘플을 통합합니다. SMILES 구조, 투여량 정보, 그리고 화합물 지문을 결합하여 미지의 약물의 교란 효과에 대한 일반화된 예측을 달성합니다.
혈관 기관체 데이터는 독창적인 실험에 기초하고 있습니다.건강한 인간 iPSC에서 내피 세포, 벽세포, 섬유아세포를 분화시켰습니다. 5일차에 세포에 중성자 또는 광자 방사선을 조사했고, 11일차에 scRNA-seq 데이터를 수집하여 72개의 오가노이드와 약 60,000개의 세포를 포함하는 리소스 라이브러리를 구축했습니다. 염증 인자에 대한 ELISA 측정을 통해 다중 모드 검증을 추가로 수행했습니다. 모델링에서는 0일차와 11일차 데이터를 사용하여 모델을 학습하고, 중간 시점에서의 세포 상태를 예측하기 위해 보간했습니다. 방사선 및 G-CSF 처리 시나리오에서는 내피 세포 데이터만 학습에 사용하여 세 가지 세포 유형 모두에 대해 교란된 전사체를 생성했습니다. 마지막으로, 예측 결과의 생물학적 유의성은 차등 발현 및 의사 시간 분석을 통해 검증되었습니다.
Squidiff: DDIM과 의미 인코딩을 통합한 조건부 확산 모델
연구팀은 분화, 발달, 유전자 편집, 약물 치료 등 다양한 교란 상황에서 전사체의 역동적인 반응을 정확하게 예측하기 위해 조건부 확산 모델을 기반으로 하는 지능형 컴퓨팅 프레임워크인 Squidiff를 개발했습니다.아래 그림에서 볼 수 있듯이, 이 모델은 조건부 잡음 제거 확산 암묵적 모델(DDIM)과 의미 인코딩 기술을 심층적으로 통합하여 "인코딩-확산-디코딩"의 3단계 협업 아키텍처를 구축합니다. 생물학적 배경에 부합하는 전사체 데이터를 효율적으로 생성할 뿐만 아니라, 잠재 변수를 통해 세포 상태를 유연하게 조절할 수 있으며, 세포 분화, 유전자 교란, 약물 치료 등 다양한 연구 시나리오에 폭넓게 적용할 수 있습니다.

Squidiff의 핵심은 의미론적 인코더와 조건부 DDIM 확산 모듈로 구성됩니다. 의미론적 인코더는 다층 퍼셉트론(MLP)을 사용하여 단일 세포 RNA 시퀀싱 데이터를 저차원 의미론적 공간에 매핑하고, 세포 유형 및 교란 정보를 포함하는 의미론적 변수(Z_sem)를 생성합니다. 약물 연구 시나리오의 경우, 이 인코더는 재보정된 기능 클래스 지문(r_FCFP)을 통합하여 약물 분자 구조를 의미론적 공간에 포함된 2,048차원 벡터로 인코딩합니다. 알려지지 않은 약물 교란을 예측하기 위해 이 모델은 약물 SMILES 문자열과 복용량 정보를 입력하는 어댑터 모듈도 포함하여 생물학적 및 화학적 정보를 심층적으로 융합합니다.
조건부 DDIM 모듈은 정방향 확산(유전자 공간 확산)과 역방향 확산(유전자 공간 역방향 확산)의 이중 프로세스 설계를 따릅니다.전방 확산 과정 동안 원래 유전자 발현 데이터(x₀)는 1,000번의 반복을 거쳐 점차 거의 순수한 노이즈(x₀)로 변환됩니다.이 과정에서 세 가지 전형적인 세포 유형은 점차 가우시안 분포에 접근하는 반면, Z_sem은 유전자 발현의 생물학적 변이를 효과적으로 포착하여 잠재 공간에서 다양한 실험 조건을 명확하게 구분합니다. 역확산 과정에서는 사인파 위치 임베딩(ε)을 갖춘 노이즈 예측 네트워크가 사용됩니다.시간 단계(t)와 Z_sem을 이중 조건으로 사용하여 반복적 잡음 제거를 통해 x_T에서 생물학적으로 중요한 전사체를 재구성하여 원래 전사체 프로필을 성공적으로 복원했습니다.

모델 학습은 핵심 최적화 목표로 노이즈 예측 손실에 초점을 맞추고, Adam 최적화 프로그램(학습률 1×10⁻⁴)을 사용하며 GPU 가속에 의존합니다.시간 단계와 의미 변수의 조절을 조정함으로써, 이 모델은 세포 상태의 지속적인 진화를 시뮬레이션하여 동적 궤적 예측을 지원할 수 있습니다.
기존의 변형 자동 인코더와 비교했을 때 Squidiff는 상당한 장점을 가지고 있습니다.가우시안 분포 가정 없이도 정교한 노이즈 감소를 통해 복잡한 유전자 발현 패턴을 포착하여, 희귀 세포 유형(<5%) 예측 시 F1 점수를 27%만큼 향상시킵니다. 잠재 공간에서 의미 변수를 선형적으로 결합하여 연속적인 분화 경로를 생성하는 "기울기 보간" 전략을 혁신적으로 도입하고, 기존 모델에서 쉽게 간과되는 일시적인 세포 상태(예: iPSC 분화의 중배엽 전구체)를 성공적으로 식별합니다.
또한, 이 모델은 잠재 변수를 조작하기 위한 두 가지 방법을 제공합니다. "덧셈"은 아래 그림 f에 표시된 것처럼 원래 표현과 섭동 방향(Δz_sem)을 결합하여 유전자 발현 분포를 이동시키고 섭동 효과를 반영합니다. "보간"은 아래 그림 g에 표시된 것처럼 선형 보간을 사용하여 벡터 연결선에서 중간점을 얻어 연속 상태를 생성하여 세포 유형의 원활한 전환을 달성합니다.

Squidiff 다중 시나리오 시연: 세포 분화, 교란 및 방사선 반응의 전사체 변화를 정확하게 포착
연구팀은 스퀴디프의 전사체 예측 능력을 체계적으로 검증하기 위해 세포 분화, 유전자 및 약물 교란, 혈관 기관체 발달, 방사선 손상이라는 4가지 핵심 영역에서 실험 검증을 수행했습니다.
세포 분화 예측에서, 아래 그림과 같이 연구팀은 iPSC-내배엽 분화 데이터셋을 기반으로 0일차와 3일차 데이터만을 사용하여 모델을 학습시켰습니다. 의미 변수 차이를 계산하여 분화 방향을 도출했으며, Squidiff는 1일차와 2일차 사이의 중간 상태를 성공적으로 예측했습니다. 이 모델은 다능성 마커인 MMOG의 하향조절, 내배엽 인자인 GATA6의 상향조절, 그리고 중배엽 마커인 DBX1의 일시적인 발현을 정확하게 포착했습니다. 기존 방식과 비교했을 때, Squidiff로 생성된 전사체 데이터는 실제 발생 궤적과 매우 일치하는 연속적인 경로를 재구성할 수 있습니다.

이 모델은 유전자 및 약물 교란을 예측하는 데 탁월한 성능을 보여줍니다.K562 세포에서 이중 유전자 녹아웃 실험을 하는 경우, Squidiff는 사전 지식 없이도 비가산적 효과를 정확하게 예측할 수 있으며, 그 견고성은 기존 방법을 능가합니다.약물 임상시험에서, 이 모델은 단일 약물 데이터만을 사용하여 복합 약물의 시너지 효과를 예측하고, 파비셉트가 종양 세포에 미치는 특정 효과를 정확하게 파악할 수 있었습니다. 또한, 약물 화합물 어댑터를 통합함으로써, 미지의 약물 sglt1에 대한 이 모델의 예측 성능은 특수 모델과 유사하여, 뛰어난 일반화 능력을 보여주었습니다.

연구팀은 혈관 기관체(BVO)에 대한 연구에서 iPSC로 유도된 BVO 모델을 사용하여 여러 중간 시점에서 세포 상태를 성공적으로 예측했습니다.이 모델은 세 가지 주요 세포 유형(내피 세포, 섬유아세포, 벽세포)의 분화 궤적을 재현했을 뿐만 아니라, 기존 방법으로는 파악하기 어려운 벽세포의 내피 세포로의 분화 중간 단계까지 파악했습니다. 유전자 발현 분석 결과, 예측된 데이터의 특징적인 유전자 변화는 알려진 발달 패턴과 매우 일치했습니다.

방사선 손상 연구에서, 이 모델은 내피 세포 훈련 데이터만을 사용하여 다양한 세포 유형에 대한 방사선의 영향을 정확하게 예측했습니다. 분석 결과, 초기 발달 세포가 방사선에 더 민감했으며, 모델이 예측한 차등 발현 유전자와 관련 경로는 실험적으로 확인되었습니다. G-CSF 보호 효과 예측에서, 이 모델은 섬유아세포의 혈관신생 경로 활성화, 내피 세포의 세포자멸사 경로 억제, 그리고 세포벽 세포의 유전체 안정성 향상 등 다양한 세포 유형에 대한 약물의 보호 기전을 밝혀냈습니다. 실험적 검증 결과, G-CSF 처리 후 세포 사멸이 유의미하게 감소하여 모델 예측의 신뢰성을 입증했습니다.

이러한 시스템 실험은 Squidiff가 다양한 생물학적 시나리오에서 세포 상태의 변화를 정확하게 예측할 수 있을 뿐만 아니라, 일시적인 상태를 포착하고 알려지지 않은 교란을 추론하여 세포 반응을 예측하는 강력하고 신뢰할 수 있는 계산 도구를 제공한다는 것을 보여줍니다.
단일 세포 연구를 위한 AI 기반 새로운 패러다임
단일 세포 생물학과 인공지능의 학제간 분야에서 Squidiff가 대표하는 확산 모델 기술의 획기적인 발전은 학계와 산업계 간의 협력적 혁신을 주도하고 있습니다.
학술 연구 수준에서 전 세계 최고 대학 팀은 단일 세포 모델링의 깊이와 폭을 넓히는 획기적인 발전을 지속적으로 이루고 있습니다.캐나다 토론토 대학의 연구팀은 단일 세포 생물학을 위한 최초의 기본 대규모 언어 모델인 scGPT를 개발하여 출시했습니다.이 모델은 사전 학습된 생성형 트랜스포머 아키텍처를 기반으로 하며, 51개의 인간 장기/조직과 441개의 독립적인 연구를 포함하는 3,300만 개 이상의 세포 데이터 포인트를 기반으로 학습되었습니다. 다양한 세포 유형과 생리적 및 병리적 상태를 포괄적으로 포괄하며, 인간 세포 이질성에 대한 풍부한 지도를 제공합니다.
논문 제목:scGPT: 생성 AI를 활용한 단일 세포 다중 오믹스 기반 모델 구축
서류 주소:
https://biorxiv.org/content/10.1101/2023.04.30.538439
동시에,스탠포드 대학 연구팀은 공간적 차원의 혁신에 집중하여 3차원 시공간 모델링 프레임워크인 Spateo를 개발했습니다.확장 가능하고 정확한 알고리즘을 기반으로 하는 이 프레임워크는 연속적인 2차원 조직 슬라이스 데이터로부터 완전한 3차원 배아 및 장기 모델을 재구성하고, 단일 세포 분자적 특징에서 거시적 배아 형태에 이르기까지 다단계 공간 디지털 시스템을 구축할 수 있습니다.
논문 제목:분자 홀로그램의 시공간 모델링
서류 주소:
https://www.cell.com/cell/fulltext/S0092-8674(24)01159-0
기업계에서는 이러한 학문적 연구 결과를 실용적인 도구로 전환하여 약물 개발, 질병 치료 및 기타 분야에서 중요한 가치를 입증합니다.구글이 예일대학교 및 기타 기관과 협력하여 개발한 Cell2Sentence-Scale 27B(C2S-Scale 27B)는 단일 세포 분석을 위한 세계 최대 규모의 기본 모델 중 하나입니다.Gemma 오픈소스 모델군을 기반으로 구축된 이 모델은 270억 개의 매개변수를 자랑하며, 개별 세포의 유전자 발현 패턴을 심층 분석하고 약물 투여에 대한 세포 반응을 정확하게 예측할 수 있습니다. 현재 이 모델은 Google Health의 약물 스크리닝 플랫폼에 통합되어 "저온성 종양"에 대한 맞춤형 병용 요법 설계를 지원하고 면역 요법 개발을 가속화하고 있습니다.또 다른 중요한 사례는 비영리 기관인 Arc Institute와 10x Genomics와 같은 회사 간의 협업에서 비롯되는데, 이들의 STATE 모델은 동적 세포 반응을 시뮬레이션하는 데 중점을 두고 있습니다.1억 7천만 개의 세포에서 얻은 관찰 데이터와 1억 개의 세포에서 얻은 개입 데이터를 통합하여 약물 치료, 유전자 편집 또는 방사선 노출 시 세포의 전사체 변화를 정확하게 시뮬레이션할 수 있습니다.
학계에서 기본 단일 세포 모델을 심층적으로 탐구한 것부터 업계에서 이 기술을 대규모로 구현한 것까지,스퀴디프의 확산 모델링 기술은 단일 세포 연구를 '세포 상태 분석'에서 '세포 운명 예측'으로 이끌고 있습니다.이러한 도약은 약물 개발 및 암 치료와 같은 분야의 진전을 가속화할 뿐만 아니라 정밀 의학 및 재생 의학과 같은 미래 의료 방향에 대한 핵심적인 기술 지원을 제공하여 생명 과학 분야에서 AI 기반 혁신의 엄청난 잠재력을 지속적으로 발휘하게 될 것입니다.
참고문헌:
1.https://mp.weixin.qq.com/s/yCR_GC0Ln80st2tHcv08-Q
2.https://mp.weixin.qq.com/s/GegQB65w4nZG6ZXvnyU9dw