Evo 2에 이어 Arc Institute는 70개의 다양한 세포주를 포함하는 훈련 데이터를 포함하는 최초의 가상 세포 모델 STATE를 출시했습니다.

우리 모두 알다시피 인체는 다양한 유형의 세포로 구성되어 있습니다. 면역 세포는 감염 시 병원균에 저항하기 위해 염증 반응을 유발하고, 줄기 세포는 다양한 조직 유형으로 분화하여 생성할 수 있는 잠재력을 가지고 있으며, 암세포는 성장 조절 신호를 회피하여 비정상적으로 증식합니다. 이러한 세포들은 기능과 형태가 매우 다양하지만, 모두 거의 동일한 유전체를 가지고 있습니다.세포의 독특성은 DNA 서열 자체의 차이에서 비롯되는 것이 아니라, 동일한 유전 정보를 어떻게 조절하고 사용하느냐에 달려 있습니다.
즉, 세포의 특성은 유전자 발현의 차이에서 비롯되며, 세포의 유전자 발현 양상은 그 세포가 어떤 세포 유형에 속하는지 뿐만 아니라, 그 세포가 어떤 세포 상태에 있는지도 결정한다. 따라서,유전자 발현의 변화를 관찰하면 세포가 건강한지, 염증이 있는지, 암세포인지 판단할 수 있습니다.이를 바탕으로 AI 모델은 화학적 또는 유전적 개입을 받은 세포의 전사 반응을 측정함으로써 서로 다른 상태 사이의 세포 전환 궤적을 학습하고 예측할 수 있으며, 심지어 보이지 않는 개입의 효과까지 예측할 수 있습니다.
이러한 유형의 "가상 세포" 모델은 약물 개발 효율성을 크게 향상시킬 것으로 기대됩니다.——각 약물이 표적 개입이라는 맥락에서, 과학자들이 치료 옵션을 보다 정확하게 선별하고, 질병에서 건강한 상태로 세포 상태를 안내하는 동시에 부작용을 줄이고 출처에서 임상 성공률을 개선하는 데 도움이 될 수 있습니다.
오늘날 가상 세포 모델이 현실이 되었습니다. Evo 시리즈 모델을 출시한 비영리 연구 기관인 Arc Institute는 UC 버클리와 스탠퍼드 등 대학의 연구팀과 협력했습니다.약물, 사이토카인 또는 유전자 개입에 대한 줄기세포, 암세포 및 면역세포의 반응을 예측할 수 있는 가상 세포 모델 STATE를 출시했습니다.훈련 데이터는 약 1억 7천만 개의 세포에서 얻은 관찰 데이터와 70개의 서로 다른 세포주를 포함하는 1억 개 이상의 세포에서 얻은 중재 데이터를 포함하고 있으며, Arc Virtual Cell Atlas의 데이터를 통합합니다. 실험 결과에 따르면 State 모델은 중재 후 전사체 변화 예측에 있어 기존의 주류 방법보다 훨씬 우수한 성능을 보입니다. Tahoe-100M 데이터셋을 사용한 테스트에서 중재 효과 구분 능력이 50%만큼 향상되었으며, 차별적으로 발현되는 유전자를 식별하는 정확도는 기존 모델보다 두 배 높습니다.
현재 STATE는 비상업적 사용을 위해 오픈 소스로 공개되었으며, 관련 결과는 "State를 이용한 다양한 맥락에서의 교란에 대한 세포 반응 예측"이라는 제목의 사전 인쇄본으로 출판되었습니다.
논문 링크:https://go.hyper.ai/1UFMr
프로젝트 오픈소스 주소:https://github.com/ArcInstitute/state
70개 세포주를 포괄하는 두 개의 데이터 소스의 융합
STATE는 STATE 전환(ST)과 STATE 임베딩(SE)이라는 두 가지 핵심 모듈로 구성됩니다. 이 다중 스케일 프레임워크를 기반으로 두 가지 유형의 데이터 소스를 통합할 수 있습니다.SE 모델을 학습하는 데 1억 6,700만 개의 세포 관찰 데이터가 사용되었고, ST 모델을 학습하는 데 1억 개 이상의 개입 세포 데이터가 사용되었습니다.
ST 모델 훈련에 사용된 단일 세포 개입 데이터셋의 세부 정보는 아래 그림에 나와 있습니다. 모든 데이터셋은 19,790개의 인간 단백질 코딩 Ensembl 유전자의 측정값만 유지하도록 스크리닝되었으며, 총 UMI 깊이가 10,000이 되도록 균일하게 표준화되었습니다.

안에:
* Tahoe-100M 데이터 세트:1억 개의 전사체 프로파일을 포함하고 50개 암 세포주에서 각 세포에 미치는 1,100개의 소분자 교란의 효과를 측정한 페타스케일 단일 세포 아틀라스인 대규모 단일 세포 데이터 세트입니다.
타호-100M 데이터세트 다운로드 주소:
* Parse-PBMC 데이터 세트:생명공학 회사인 파스 바이오사이언스(Parse Biosciences)는 단일 실험에서 1,152개 샘플에서 1천만 개의 세포를 분석한 오픈소스 단일 세포 RNA 시퀀싱(scRNA-seq) 데이터 세트를 공개했습니다. 이 데이터 세트는 주로 다양한 조건에서 인간 말초혈액 단핵세포(PBMC)의 유전자 발현 특성을 연구하는 데 사용됩니다.
파스-PBMC 데이터세트 다운로드 주소:
SE 모델은 1억 6,700만 개의 인간 세포에서 학습되었습니다. 데이터 출처는 아래 그림에 나와 있습니다. 맥락 일반화 벤치마크에서 데이터 유출을 방지하기 위해 연구진은 Tahoe 데이터셋에서 20개의 세포주만 학습에 사용했고, 나머지 5개의 세포주는 예비 테스트 세트로 사용했습니다.

안에,Arc Institute는 최근 4,000만 개 이상의 인간 세포를 포함하는 대규모 인간 단일 세포 발현 데이터 세트인 scBaseCount를 발표했습니다.여러 장기, 세포주 및 병리학적 상태를 포괄합니다. 이 연구에서 연구진은 scBaseCount 데이터를 처리할 때, 세포당 최소 1,000개의 0이 아닌 발현 값과 2,000개의 UMI를 갖는 세포를 선별했습니다.
Transformer 기반 다중 규모 프레임워크인 STATE
STATE는 유전자 발현 변화, 차별적으로 발현되는 유전자, 그리고 전반적인 교란 효과의 강도를 포함하여 교란 후 세포의 하위 전사체 반응을 예측할 수 있습니다. 이 아키텍처는 여러 수준의 정보를 통합합니다.
* 분자 수준:임베딩을 사용하여 여러 실험과 종에서 개별 유전자의 특성을 나타냅니다.
* 세포 수준:임베딩을 사용하여 개별 세포의 전사체 상태를 나타냅니다. 즉, 세포의 로그 정규화된 발현 프로필이나 STATE 임베딩(SE) 모델에서 생성된 임베딩을 사용합니다.
* 그룹 레벨:ST(STATE Transition) 모델은 셀 앙상블에 대한 교란의 효과를 학습합니다.
ST는 트랜스포머 아키텍처를 기반으로 하며, 셀프 어텐션 메커니즘을 사용하여 세포 집단 내 개입의 변형 과정을 모델링합니다. 각 세포는 원래 유전자 발현 또는 임베디드 벡터로 표현될 수 있습니다. SE 모듈은 다양한 이질적인 데이터셋을 기반으로 사전 학습되어 세포 간 발현 차이를 학습하고, 기술적 노이즈에 강하고 개입 반응에 매우 민감한 발현 벡터를 생성할 수 있습니다. 셀프 어텐션 메커니즘을 통해 ST 모델은 명시적인 분포 가정 없이도 복잡한 생물학적 변동성을 유연하게 포착할 수 있습니다.
아래 그림과 같이 다중 스케일 머신 러닝 프레임워크로서,STATE는 유전자, 단일 세포, 세포 집단 수준 등 여러 수준에서 작동될 수 있습니다.ST 모델은 섭동 유형, 세포 환경, 배치와 같은 공유 공변량으로 그룹화된 섭동된 세포 집단과 섭동되지 않은 세포 집단을 학습하여 섭동 효과를 학습합니다. ST 모델은 유전자 발현 프로파일을 직접 처리하거나, 대규모 관측 데이터로부터 풍부한 정보를 포함하는 임베딩 표현을 학습하는 SE 모델로부터 세포 표현을 압축할 수 있습니다.
동시에 이 다중 규모 아키텍처를 통해 ST는 실리코 환경에서 Perturb-seq 실험을 효과적으로 시뮬레이션하고 발현 추정, 차등 발현 분석, 섭동 효과 크기 추정과 같은 후속 분석 작업을 지원할 수 있습니다.

ST 모델 프레임워크는 아래 그림에 나와 있습니다. 입력은 교란되지 않은 세포 집단과 교란 레이블의 집합이며, 출력은 해당 교란된 세포 집단입니다. 세포가 유전자 발현 프로파일로 표현될 때, ST는 단일 세포 수준에서 전사체를 직접 예측할 수 있습니다. ST는 ST의 입력으로 ST의 출력 임베딩을 먼저 예측한 다음, 다층 퍼셉트론(MLP)을 통해 이를 전사체로 디코딩합니다.

ST 모델의 학습 목표는 예측된 교란된 세포 전사체와 실제로 관찰된 데이터 간의 최대 평균 차이(MMD) 손실을 최소화하는 것입니다.ST는 세포 분포 수준에서 교란 효과를 학습하지만, 각 특정 세포에 대한 교란 후 발현 양상을 예측합니다. 이러한 특성은 교란된 세포 집단 내 세포의 분포 구조를 파악하는 데 매우 중요합니다.
실험 결과, 특정 임계값 내에서 셀 집합의 크기를 늘리면 검증 손실을 크게 줄일 수 있으며, 이는 단일 셀을 모델링하는 것보다 훨씬 효과적입니다. 또한, 셀프 어텐션 메커니즘을 제거하면 아래 그림 D에서 볼 수 있듯이 성능이 저하됩니다. 이는 섭동 반응에서 셀 이질성을 모델링하는 데 있어 셀 집합 기반 유연한 셀프 어텐션 메커니즘의 가치를 더욱 잘 보여줍니다.

SE 모델은 ST 모델을 보완하는 모델이다.세포 임베딩을 학습하고 세포 유형별 유전자 발현 패턴을 최적으로 포착하는 것을 목표로 합니다.아래 그림 A와 같이, SE는 데이터 양이 적거나 실험 잡음이 클 때 특히 유용합니다. ST와 함께 사용하면 SE는 더 매끄러운 셀 상태 공간을 제공합니다. 이 임베딩은 다수의 관측 단일 세포 데이터베이스를 기반으로 학습되는데, 이는 풍부한 관측 단일 세포 데이터를 간접적으로 사용하여 섭동 반응 예측의 정확도를 향상시키는 것과 같으며, 특히 개입 데이터가 제한적일 때 더욱 그렇습니다.

아키텍처 측면에서 SE 인코더는 고밀도 양방향 변환기(Density Bidirectional Transformer)이며, 학습 목표는 로그 정규화된 유전자 발현을 예측하는 것입니다. SE 디코더는 학습된 세포 임베딩과 목표 유전자 임베딩의 조합을 기반으로 유전자 발현을 예측하는 더 작고 특수 설계된 다층 퍼셉트론(MLP)입니다. 이러한 비대칭 아키텍처 설계를 통해 모델은 생물학적 기반과 우수한 일반화 능력을 갖춘 세포 상태를 학습할 수 있습니다.
STATE는 세포 환경 전반의 교란 효과 예측을 선도합니다.
연구진은 STATE를 CPA, scVI, scGPT의 세 가지 머신러닝 모델을 포함한 다양한 기준 모델과 비교하고, 화학, 신호 전달, 유전자 교란 데이터세트를 이용하여 평가했습니다. 평가 프레임워크는 Perturb-Seq 실험의 세 가지 핵심 출력 범주, 즉 유전자 발현 수, 차등 발현 통계, 그리고 교란 효과의 전반적인 크기를 포괄합니다.
이러한 차원에서 모델의 성능을 종합적으로 평가하려면연구자들은 Cell-Eval이라는 평가 지표 세트를 개발했습니다.아래 그림 C에서 볼 수 있듯이, 이러한 지표들은 표현적이고 생물학적으로 설명적이며, 상호 보완적인 평가 관점을 제공할 수 있습니다. 예를 들어, DEG의 중복 정도는 예측 결과를 특정 경로와 연결하고 생물학적 유의성을 부여하는 데 도움이 됩니다. 반면, 교란 변별 점수는 교란 효과의 미세한 변화를 더욱 민감하게 포착하고 예측 결과와 실제 교란 효과 간의 유사성을 반영할 수 있습니다.

특정 평가에서, 섭동 실험의 경우, 모델은 다양한 섭동의 효과를 효과적으로 구분할 수 있어야 합니다. 이를 위해 연구진은 2024년 Wu et al.에서 개발한 섭동 변별 점수 평가 방법을 사용했습니다. 이 방법은 예측된 섭동 후 발현 프로파일과 실제 섭동 결과 간의 유사성을 비교하여 섭동 효과의 순위를 매기는 것입니다. 결과는 다음과 같습니다.Tahoe와 PBMC 데이터 세트에 대한 STATE 모델의 성능은 각각 54%와 29%만큼 향상되었습니다.아래 그림 D와 같습니다.
유전자 발현 수 예측의 정확도를 직접 평가하기 위해 연구진은 관찰된 섭동으로 인한 발현 변화와 모델 예측 간의 피어슨 상관 계수를 계산했습니다.STATE 모델은 Tahoe 데이터 세트에서 기준 모델보다 63%, PBMC 데이터 세트에서는 47% 더 우수한 성능을 보였습니다.아래 그림 E와 같습니다.
모델에 의해 예측된 차등 발현(DE) 유전자의 p-값을 평가하기 위해, 연구진은 먼저 실험에서 관찰된 섭동 데이터를 이용하여 유의미하게 차등 발현된 실제 유전자를 계산하고, FDR 임계값을 0.05로 설정했습니다. 모델 예측을 통해 생성된 p-값을 실제 유의수준과 비교하여 정밀도-재현율(PR) 곡선을 그렸습니다.PR 곡선 아래의 면적(AUPRC)을 계산하면 STATE가 모든 데이터 세트에서 모든 기준 모델보다 지속적으로 우수한 성능을 보이는 것을 알 수 있습니다.아래 그림 F와 같습니다.

유전자 교란 데이터 세트에 대한 STATE 모델의 AUPRC(정밀도-재현율 곡선 아래의 면적)는 2위를 차지한 모델보다 184% 더 높습니다.이러한 결과는 아래 그림 G에 표시된 것처럼 서로 다른 데이터 세트에 대한 각 모델의 PR 곡선에서 매우 명확하게 드러납니다.

또한 언급할 가치가 있는 것은 다음과 같습니다.STATE는 또한 제로샷 예측을 지원합니다.즉, 모델 학습 중에 교란 데이터가 관찰되지 않은 새로운 셀 환경에서도 아래 그림과 같이 교란 효과를 정확하게 예측할 수 있습니다.

또한 연구진은 STATE의 실제 적용 시나리오를 보여주기 위해, 아래 그림 A에 표시된 것처럼 Tahoe-100M 데이터 세트의 5개 세포주에 초점을 맞춰 세포 유형별 차등 발현을 감지하는 능력을 평가했습니다.

연구진은 STATE 모델과 두 기준 모델의 차등 발현 유전자 예측 결과의 겹침과 로그 폴드 변화의 스피어만 상관 계수를 비교하여 세포 유형 특이성이 강한 교란 조건을 식별했습니다. 성능이 "교란 평균" 기준보다 우수하면 STATE 모델이 특정 세포 유형에 특화된 교란 효과를 학습했음을 의미하며, "환경 평균" 기준보다 우수하면 모델이 각 세포주의 평균 발현 수준을 단순히 예측하는 것이 아니라 동일 세포주에서 서로 다른 교란의 효과를 구분할 수 있음을 의미합니다.
모든 교란 조건에서STATE는 차별적으로 발현되는 유전자의 로그 폴드 변화의 실제 순서를 보다 정확하게 복원하는 능력이 더 뛰어난 것으로 지속적으로 나타났습니다.위의 그림 B에 나타난 것처럼, 이 모델은 환경 평균과 섭동 평균의 두 가지 기준 모델보다 상당히 뛰어납니다.
요약하자면, 연구팀은 STATE가 세포 환경 일반화 과제에서 거의 모든 지표와 여러 데이터셋에서 단순 기준선(평균 모델이나 선형 모델 등)을 능가하는 최초의 머신러닝 모델이라고 제안했습니다. 또한, 세포 임베딩 모델 SE에서 생성된 임베딩은 새로운 세포 환경에서 더욱 효과적인 제로 샘플 섭동 효과 예측을 가능하게 합니다.
비영리 연구 기관인 Arc Institute가 일련의 중요한 결과를 발표했습니다.
Arc Institute는 유명 모바일 결제 회사 Stripe의 공동 창립자이자 CEO인 패트릭 콜리슨과 스탠포드 대학의 생화학 조교수인 실바나 코너만, 캘리포니아 대학 버클리의 생명공학 조교수인 패트릭 D. 쉬에 의해 2021년에 공식 설립되었습니다.

설립 초기에는Arc는 6억 5천만 달러의 투자를 모았는데, 그 중 5억 달러는 Collison으로부터 모였습니다."억만장자가 과학자의 아내에게 연구비 걱정을 덜어주려고 돈을 지불하는" 이 움직임은 그해 해당 분야에서 광범위한 논쟁을 불러일으켰습니다. 이 기금은 핵심 연구원 15명과 연구 보조원 팀에게 최대 8년간의 연구비를 지원할 예정입니다. 이 연구원들은 어떠한 제약도 받지 않고 복잡한 인간 질병에 대한 연구를 어떤 형태로든 수행할 수 있습니다.
생명 과학 분야의 최첨단 연구와 혁신에 중점을 둔 이 비영리 연구소는 아일랜드 아크(Island Arcs)에서 이름을 따왔습니다. 아일랜드 아크는 판과 판이 만나는 지점에서 융기하여 형성된 군도입니다. 설립자는 아일랜드 아크 연구소를 통해 다양한 기관과 분야의 연구자들을 하나로 모아 새로운 것을 창조하고자 합니다. 실제로 그렇습니다. 아일랜드 아크 연구소는 설립 이후 생명 과학 분야에서 수많은 괄목할 만한 성과를 거두었습니다.
올해 2월에는 Arc Institute는 3억 개가 넘는 세포 데이터를 통합하여 Arc Virtual Cell Atlas를 출시했습니다.이 아틀라스는 2025년 2월 25일에 오픈 소스로 공개된 두 가지 기본 데이터 세트를 선보였습니다. Tahoe-100M은 Tahoe가 개발한 새로운 오픈 소스 섭동 데이터 세트로, 50개의 암 세포주에서 1억 개의 세포와 6만 건의 약물-세포 상호작용을 포함하고 있습니다. scBaseCount는 공개 데이터를 기반으로 한 최초의 단일 세포 RNA 시퀀싱 데이터 세트입니다. Arc는 AI 에이전트를 사용하여 공개 저장소에서 21개 종을 대표하는 2억 개 이상의 세포 관측치를 마이닝 및 처리하고 표준화했습니다.
같은 해 4월,10x Genomics와 Ultima Genomics는 Arc Institute와 협력하여 Arc Virtual Cell Atlas 개발을 가속화합니다.계산 가능한 단일 세포 측정 데이터 수집은 10x 및 Ultima 기술을 통해 강화되고 있습니다. 10x의 Chromium Flex 기술을 활용하여 세포당 최저 비용과 최고 해상도로 대규모 섭동 데이터를 생성하여 생물학적 AI 모델 구축을 지원합니다. Ultima의 UG 100 시퀀싱 시스템과 Solaris 케미스트리를 사용하여 더 낮은 비용으로 더 많은 데이터를 생성하고, UG 100 Solaris Boost(현재 조기 액세스 중인 새로운 고처리량 운영 모드)를 사용하여 데이터 출력을 더욱 높일 예정입니다.
돌이켜보면 2024년 11월,Arc Institute는 스탠포드 대학과 UC 버클리와 협력하여 대규모로 DNA를 학습시킨 최초의 생물학 기반 모델인 Evo를 개발했습니다.이 시스템은 딥러닝 아키텍처를 사용하여 DNA 코딩 정보를 분석하고, 뉴클레오타이드에서 유전체에 이르기까지 생물학적 규모를 아우르는 DNA, RNA, 단백질 수준에서 예측 및 설계할 수 있습니다. 핵심 가치는 DNA 진화 패턴을 해독하는 데 있습니다. 연구팀은 이 시스템을 이용하여 자연에서 미지의 기능성 CRISPR 시스템인 EvoCas9-1을 설계했으며, 단 11개의 설계만 시험한 후 성공했습니다. EvoCas9-1의 염기서열은 일반적으로 사용되는 Cas9와 유사한 73%이지만, 활성도가 매우 높습니다. 또한, 이동성 유전 요소인 IS200/IS605 트랜스포존도 성공적으로 설계되었습니다. 이는 생물학 분야에서 생성 AI의 기본 모델로 알려져 있습니다.
2025년 2월이러한 기반을 바탕으로 Arc Institute는 NVIDIA와 협력하여 현재까지 가장 큰 생물학적 AI 모델인 Evo 2를 개발하고 있습니다. Evo 2는 10만 종 이상의 9조 3천억 개의 뉴클레오티드를 학습하여 유전자 서열 패턴을 식별하고, 인간의 병원성 돌연변이를 정확하게 예측하며, 박테리아 유전체 길이와 동일한 새로운 유전체를 설계할 수 있습니다. 기술적으로, Evo 2는 NVIDIA DGX 클라우드 플랫폼에서 2,000개 이상의 H100 GPU를 학습에 사용하며 StripedHyena 2 아키텍처를 사용합니다. 처리되는 데이터 양은 이전 버전인 Evo 1보다 30배 많으며, 수백만 개의 뉴클레오티드 서열을 동시에 분석할 수 있습니다.
또한, 2024년 7월, Arc의 Goodarzi 연구실은 Gilbert 연구실과 협력하여 mRNA가 새롭게 발견된 "RNA 스위치"를 이용하여 자체 발현을 능동적으로 조절할 수 있음을 발견했습니다. 2024년 6월, Arc의 Hsu 연구실은 두 개의 관심 DNA 서열을 프로그램적으로 삽입, 절제 또는 역전시킬 수 있는 최초의 천연 RNA 유도 재조합효소를 발견했습니다. 이는 비코딩 RNA를 사용하여 서열 특이적 표적화 및 공여체 DNA 분자 스크리닝을 수행하는 최초의 DNA 재조합효소입니다. 이 가교 RNA는 프로그램 가능하기 때문에 사용자가 원하는 유전체 표적 서열과 삽입할 공여체 DNA 분자를 지정할 수 있습니다.
참고문헌:
1.https://arcinstitute.org/news
2.https://mp.weixin.qq.com/s/THQTl2HI0mAXXwyykkQI5w