HyperAI초신경

1억 개의 매개변수를 가진 셀 모델이 출시되었습니다! 청화대 연구팀, 네이처 저널에 scFoundation 게재: 2만개 유전자 동시 모델링

特色图像

최근 몇 년 동안, 대규모 사전 학습된 모델이 인공 지능의 새로운 흐름을 주도하고 있습니다. "빅 모델"은 대규모의 다중 소스 데이터에서 심층적인 규칙을 추출한 후, 다양한 분야의 다양한 작업을 수행하는 "기본 모델"로 활용할 수 있습니다. 예를 들어, 대규모 언어 모델은 방대한 양의 텍스트 데이터로부터 학습하여 언어를 이해하고 인식하는 능력을 습득하여 자연어 처리 분야의 패러다임을 혁신했습니다.

마찬가지로 생명과학 분야에서도 유기체는 고유한 "기본 언어"를 가지고 있습니다. 세포는 인체의 기본적인 구조적, 기능적 단위입니다.DNA, RNA, 단백질, 유전자 발현 값을 "단어"로 비교하면, 이들을 합쳐 "세포"라는 문장을 형성합니다.따라서 세포 "언어"를 기반으로 한 인공지능 세포 모델을 개발할 수 있다면 생명과학과 의학 분야에 새로운 연구 패러다임과 혁신적인 연구 도구를 제공할 수 있을 것으로 기대됩니다.

하지만,현재 대규모 단일 세포 데이터를 훈련하는 데는 세 가지 주요 과제가 있습니다.

* 유전자 발현 사전 훈련 데이터는 다양한 상태와 유형의 세포 환경을 포괄해야 합니다. 현재 대부분의 단일 세포 RNA 시퀀싱(scRNA-seq) 데이터는 느슨하게 구성되어 있으며, 포괄적이고 완전한 데이터베이스는 아직 없습니다.

* 훈련 중에 기존 트랜스포머는 약 20,000개의 단백질 코딩 유전자로 구성된 "문장"을 처리하는 데 어려움을 겪습니다.

* 다양한 기술과 연구실에서 얻은 scRNA-seq 데이터는 시퀀싱 심도가 다르기 때문에 모델이 통합적이고 의미 있는 세포 및 유전자 표현을 학습하는 데 방해가 됩니다.

이러한 과제를 해결하기 위해이 연구는 청화대학교 자동화학과 생명기초모델 연구실장인 장쉐공 교수, 전자공학/AIR학과 마젠주 교수, 생명공학학과 송러 박사가 공동으로 진행했습니다.2024년 6월, "단일 세포 전사체학에 대한 대규모 기초 모델"이라는 제목의 연구 논문이 Nature Methods에 게재되었습니다.

이 논문에서는 약 20,000개의 유전자를 동시에 처리할 수 있는 scFoundation이라는 대형 세포 모델을 소개합니다.기본 모델로서, 세포 시퀀싱 심도 강화, 세포 약물 반응 예측, 세포 교란 예측 등 다양한 생물의학 하위 작업에서 탁월한 성능 향상을 보여주며, 단일 세포 연구에서 인공 지능을 위한 새로운 패러다임을 제공합니다.

연구 하이라이트:

scFoundation 세포 모델은 5,000만 개의 세포에서 얻은 유전자 발현 데이터를 기반으로 학습되었으며, 1억 개의 매개변수를 가지고 있으며, 약 20,000개의 유전자를 동시에 처리할 수 있습니다.* 이 모델은 비대칭 디자인을 사용하여 계산 및 메모리 과제를 줄입니다.* 이 모델은 유전자 네트워크 추론 및 전사 인자 식별을 위한 새로운 연구 아이디어를 제공합니다.

서류 주소:
https://www.nature.com/articles/s41592-024-02305-7

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 놓았으며, 방대한 데이터 세트와 도구도 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 포괄적인 단일 세포 데이터 세트 구축

연구진은 공개적으로 이용 가능한 모든 단일 세포 자원 데이터를 수집하여 포괄적인 단일 세포 데이터 세트를 구축했습니다.여기에는 유전자 발현 옴니버스(GEO), 단일 세포 포털, HCA, 인간 게놈 프로젝트(hECA), 심층 통합 인간 단일 세포 오믹스 데이터(DISCO), 유럽 분자 생물학 연구소-유럽 생물정보학 연구소 데이터베이스(EMBL-EBI) 등이 있습니다.

* GEO 다운로드 주소:https://www.ncbi.nlm.nih.gov/geo/

* 싱글 셀 포털 다운로드 링크:https://singlecell.broadinstitute.org/single_cell
* HCA 다운로드 주소:https://data.humancellatlas.org/

* EMBL-EBI 다운로드 주소:https://www.ebi.ac.uk/

연구진은 모든 데이터를 HUGO 유전자 명명 위원회가 확인한 19,264개의 단백질 코딩 유전자와 일반적인 미토콘드리아 유전자 목록과 일치시켰습니다. 데이터 품질 관리 후,사전 훈련을 위해 5,000만 개 이상의 인간 scRNA-seq 데이터가 수집되었습니다.

연구에서는 5천만 개의 단일 세포 유전자 발현 프로필을 수집합니다.

풍부한 데이터 소스는 생물학적 패턴이 풍부한 사전 학습 데이터 세트를 구성합니다. 해부학적으로는 100개 이상의 조직 유형을 포괄하며, 광범위한 질병, 종양, 정상 상태를 포괄하고, 위 그림에서 볼 수 있듯이 알려진 거의 모든 인간 세포 유형과 상태를 포함합니다.

모델 아키텍처: 1억 개의 매개변수를 갖는 scFoundation 모델 구축

연구진이 개발한 scFoundation 모델은 약 1억 개의 매개변수를 가지고 있으며, 매개변수 규모, 유전자 커버리지, 데이터 규모는 단일 세포 분야에서 "최고 수준"입니다.

모델 디자인

연구진은 scFoundation의 백본 모델인 xTrimoGene 모델을 개발했습니다. scFoundation은 임베딩 모듈과 비대칭 인코더-디코더 구조를 포함하는 확장 가능한 Transformer 기반 모델입니다.

이 중 벡터 모듈은 연속적인 유전자 발현 스칼라 값을 학습 가능한 고차원 벡터로 변환하여 원래 발현 값이 완전히 보존되도록 보장합니다. 인코더는 0이 아니고 마스크되지 않은 발현 유전자를 입력으로 받고, 바닐라 변환기 블록을 사용하며 많은 수의 매개변수를 갖습니다. 디코더는 모든 유전자를 입력으로 받고, 수행자 블록을 사용하며 비교적 적은 수의 매개변수를 갖습니다.

이러한 비대칭적 설계는 다른 아키텍처에 비해 계산 및 메모리 관련 과제를 줄여줍니다.데이터에 따르면 이 모듈은 동일한 매개변수 규모를 유지하면서 기존 언어 모델인 Transformer의 3.4%만 필요로 합니다.

사전 훈련 작업

연구자들은 RDA(읽기 깊이 인식) 모델링이라고 불리는 사전 훈련 작업을 설계했습니다.이는 대규모 데이터에서 시퀀싱 깊이의 높은 분산을 고려한 마스크 언어 모델의 확장입니다.

사전 훈련 과정 개요

RDA 모델링에서 모델은 세포의 맥락 유전자를 기반으로 가려진 유전자의 발현을 예측합니다. 연구자들은 총 개수를 세포의 시퀀싱 깊이로 간주하고 두 가지 총 개수 지표를 정의했습니다. T(대상)와 S(소스)는 각각 원래 샘플과 입력 샘플의 총 개수를 나타냅니다. 연구자들은 입력 샘플에서 0으로 발현되는 유전자와 0으로 발현되지 않는 유전자를 무작위로 마스크하고 해당 지수를 기록했습니다.

그런 다음 모델은 마스크된 입력 샘플과 두 가지 측정 항목을 사용하여 마스크된 인덱스에서 원래 샘플의 표현 값을 예측합니다. 이를 통해 사전 훈련된 모델은 세포 내의 유전적 관계를 포착할 수 있을 뿐만 아니라, 서로 다른 시퀀싱 깊이의 세포를 조정할 수도 있습니다. 추론 과정에서 연구자들은 세포의 원시 유전자 발현을 사전 훈련된 모델에 입력하고 T를 총 세포 수 S보다 높게 설정하여 향상된 시퀀싱 심도로 유전자 발현 값을 생성합니다.

간단히 말해서, RDA는 시퀀싱 깊이를 다운샘플링할 수 있으므로 기존 마스크 복구 작업을 완료하는 것 외에도 모델은 사전 학습 단계에서 품질이 낮은 세포로부터 품질이 높은 세포의 유전자 발현 정보를 복구할 수도 있습니다.

사전 훈련은 다운스트림 작업을 용이하게 합니다.

사전 훈련 후, 연구진은 scFoundation 모델을 여러 하위 작업에 적용했습니다. scFoundation 인코더의 출력은 클러스터링(데이터 세트 내부 및 데이터 세트 간), 배치 및 단일 세포 수준에서의 약물 반응 예측, 세포 유형 주석을 포함한 세포 수준 작업에 사용할 수 있는 세포 수준 벡터로 요약됩니다. scFoundation 디코더의 출력은 유전자 수준 컨텍스트 벡터이며, 이는 섭동 예측 및 유전자 모듈 추론과 같은 유전자 수준 작업에 사용됩니다.

연구 결과: scFoundation 모델이 우수한 성능을 보였습니다.

실제 응용 프로그램에서 scFoundation 모델은 "즉시 사용 가능" 모드와 "미세 조정" 모드의 두 가지 모드를 지원합니다."즉시 사용 가능" 모드에서는 고유한 사전 학습 작업 덕분에 모델을 직접 사용하여 세포 데이터의 품질을 개선할 수 있으며 추가 조정 없이 기존 방법과 동일하거나 더 나은 결과를 얻을 수 있습니다. 또한 사용자는 scFoundation을 사용하여 미리 훈련된 세포 표현을 추출할 수 있으며, 이는 세포 유형별 유전자 모듈과 전사 인자를 식별하는 데 사용할 수 있으며 다운스트림 작업에 널리 활용될 수 있습니다.

확장 가능하고 미세 조정이 필요 없는 시퀀싱 심층 강화 모델

연구진은 각각 3M, 10M, 100M 매개변수를 사용하여 세 가지 모델을 훈련하고, 검증 데이터 세트에 손실을 기록했습니다.

다양한 매개변수 크기와 FLOP에서의 훈련 손실. 녹색 곡선은 3M 모델을 나타내고, 주황색 곡선은 10M 모델을 나타내며, 빨간색 곡선은 100M 모델을 나타냅니다.

모델 매개변수와 부동 소수점 연산(FLOP)이 증가함에 따라 검증 데이터 세트의 손실은 거듭제곱 감소를 보입니다. 그런 다음 연구자들은 다양한 크기의 xTrimoGene 아키텍처 모델의 성능을 추정하고 이를 scVI와 비교했습니다. 위 그림과 같이,1억 개의 매개변수를 갖는 scFoundation 모델이 모든 모델 중에서 가장 좋은 성능을 보였습니다.연구진은 세포 유형 주석 작업에 대한 세 가지 모델을 추가로 평가한 결과, 모델 크기가 커질수록 성능이 향상된다는 것을 확인했습니다.

연구진은 검증 데이터 세트에서 무작위로 샘플링한 10,000개 세포의 독립적인 테스트 데이터 세트에서 이 기능을 평가했습니다. 원래 데이터의 총 개수를 1%, 5%, 10%, 20%로 다운샘플링하여 총 개수 변화가 다른 4개 데이터 세트를 생성했습니다. 각 데이터 세트에 대해 예측된 값과 실제 0이 아닌 유전자 발현 간의 평균 절대 오차(MAE), 평균 상대 오차(MRE), 피어슨 상관 계수(PCC)는 조정되지 않은 scFoundation을 사용하여 측정되었습니다.

알려지지 않은 데이터 세트에 대한 읽기 깊이 향상 성능 평가 MRE와 PCC를 사용하여 복구된 유전자 발현의 성능을 평가했으며, MRE가 낮고 PCC가 높을수록 성능이 더 좋음을 나타냅니다.

위 그림에서 보듯이 다운샘플링 속도가 10%보다 낮더라도 scFoundation의 MAE와 MRE는 절반으로 현저히 감소합니다.이러한 결과는 scFoundation이 극히 낮은 총 개수에서도 유전자 발현을 향상시킬 수 있는 능력을 보여줍니다.

하류 작업 - 항암제 반응 예측 작업

항암제 반응(CDR)은 약물 개입에 대한 종양 세포의 반응을 연구하는 것을 목표로 하며, CDR의 계산적 예측은 항암제 설계를 안내하고 암 생물학을 이해하는 데 중요합니다. 이 연구에서 연구진은 scFoundation과 CDR 예측 방법인 DeepCDR을 결합하여 다중 세포주 데이터에서 약물의 반치최대억제농도 IC50 값을 예측하여 scFoundation이 단일 세포 훈련에 기반한 전체 유전자 발현 데이터에 유용한 임베딩 정보를 제공할 수 있는지 확인했습니다.

연구진은 여러 약물과 암세포주에 걸쳐 scFoundation 기반 결과와 유전자 발현 기반 결과의 성능을 평가했습니다.결과는 대부분 약물과 모든 암 유형이 scFoundation 임베딩을 사용하여 더 높은 피어슨 상관 계수(PCC)를 달성했다는 것을 보여주었습니다.다음 그림과 같이:

scFoundation 임베딩을 사용한 약물 반응 예측
  • 참고: 피어슨 상관계수는 변수 간의 선형 관계의 강도를 측정하는 통계량으로, 값의 범위는 -1과 1 사이입니다. 상관계수가 1에 가까울수록 두 변수 간에 완전히 양의 선형 관계가 있음을 나타냅니다. -1에 가까우면 완전히 부정적인 선형 관계가 있음을 나타냅니다. 0에 가까우면 두 변수 사이에 선형 관계가 없음을 나타냅니다.

이는 다음을 보여줍니다scFoundation은 단일 세포 전사체 데이터에 대해 사전 학습되었지만, 학습된 유전자 관계는 전역 발현 데이터로 전송될 수 있습니다.압축된 벡터를 생성하여 IC50 예측의 정확도를 높입니다. 따라서 scFoundation은 암 생물학에서 약물 반응에 대한 이해를 확대하고 더욱 효과적인 항암 치료법을 설계하는 데 도움이 될 수 있는 잠재력을 가지고 있습니다.

하류 과제 - 단일 세포 약물 반응 분류 과제

단일 세포 수준에서 약물 민감도를 추론하면 뚜렷한 약물 내성 프로필을 나타내는 특정 세포 하위 유형을 식별하는 데 도움이 되며, 이를 통해 기본 메커니즘과 새로운 치료 접근 방식에 대한 귀중한 통찰력을 얻을 수 있습니다. 따라서 연구진은 SCAD라고 불리는 하위 모델을 기반으로 단일 세포 약물 반응 분류라는 중요한 작업에 scFoundation을 적용했습니다.

연구진은 원래 연구에서 AUC(곡선 아래 면적) 값이 낮은 것으로 나타난 4가지 약물(소라페닙, NVP-TAE684, PLX4720 및 에토포사이드)에 초점을 맞췄습니다. scFoundation 기반 모델은 모든 유전자 발현 값을 입력으로 사용하는 기준 SCAD 모델과 비교되었습니다. 실험 결과, scFoundation 기반 모델은 모든 약물의 AUC 값에서 더 높은 점수를 달성했으며, 특히 NVP-TAE684와 소라페닙의 경우 AUC 값이 0.2 이상 증가한 것으로 나타났습니다(아래 그림 참조).

scFoundation 세포 임베딩을 기반으로 한 단일 세포 약물 반응 분류 작업

참고: AUC는 모델의 성능을 측정하는 데 사용할 수 있습니다. AUC 값의 범위는 0~1입니다. 값이 클수록 모델 분류 성능이 우수합니다.

이러한 결과는 scFoundation 임베딩을 사용하여 약물 민감성 바이오마커 신호를 포착할 수 있는 잠재력을 검증합니다.

하류 작업 - 세포 교란 예측 작업

세포가 교란에 반응하는 방식을 이해하는 것은 생의학적 응용 분야와 약물 설계에 매우 중요하며, 다양한 세포 유형에서 유전자 간 상호작용과 잠재적인 약물 표적을 파악하는 데 도움이 됩니다. 연구진은 scFoundation을 고급 모델인 GEARS와 결합하여 단일 세포 분해능에서 교란 반응을 예측하고, 평가 기준으로 유전자 발현 프로필이 전후에 상당히 다른 상위 20개의 차등 발현(DE) 유전자의 평균 제곱 오차(MSE)를 계산했습니다.

결과는 다음과 같습니다원래 GEARS 기준 모델과 비교했을 때, scFoundation 기반 모델은 더 낮은 MSE 값을 달성했습니다.아래 그림은 이중 유전자 교란 ETS2+CEBPE에서 상위 20개 유전자의 발현 변화를 보여줍니다.

결합 교란(ETS2 + CEBPE) 후 상위 20개 DE 유전자의 예측 유전자 발현은 대조군보다 높았습니다.

이러한 결과는 단일 세포에서 유전자 표현을 추출하여 특정 유전자 공발현 네트워크를 구성함으로써scFoundation은 다양한 조건에서 세포 및 유전자 특성을 성공적으로 포착하여 단일/이중 섭동 예측의 정확도를 크게 향상시켰습니다.

요약하자면, scFoundation 모델은 대세포 사전 학습 모델의 모델 아키텍처, 학습 프레임워크, 다운스트림 시연 응용 시스템을 구축하기 위한 새로운 아이디어와 방법을 제공하고, 생물의학 과제 학습을 위한 기본 기능을 제공하며, 단일 세포 분야에서 기본 모델의 경계를 확장합니다.

더 나은 성능을 갖춘 생명과학 대형 모델 탐색

세계적인 인공지능 기업인 딥마인드의 CEO이자 창립자인 데미스 하사비스는 이렇게 말한 적이 있습니다.가장 기본적인 수준에서 생물학은 매우 복잡하고 역동적인 정보 처리 시스템으로 볼 수 있습니다. 수학이 물리학에 적합한 설명적 언어로 입증되었듯이, 생물학은 인공지능 응용 분야에 완벽한 영역이 될 수 있습니다.

그러나 기존의 AI 방법은 정확한 예측을 위해 방대한 양의 라벨이 지정된 데이터가 필요합니다. 하지만 생명과학 분야에서는 고품질의 라벨이 부착된 데이터가 종종 부족합니다. 더 적은 데이터를 기반으로 더 정확한 다운스트림 작업 모델을 구축하려면 기본 모델이 더 나은 표현력이나 일반적인 기능을 갖춰야 합니다. 따라서 점점 더 많은 연구자들이 생물학 분야에서 더 나은 수직적 거시 모델을 설계하기 위해 노력하기 시작했습니다.

2023년 5월토론토 대학의 연구팀은 단일 세포 생물학을 기반으로 한 최초의 대규모 언어 모델인 scGPT를 발표했습니다.1,000만 개 이상의 셀로 사전 학습된 이 모델은 다양한 다운스트림 작업에서 전이 학습을 가능하게 합니다. 같은 해 7월, 연구팀은 3,300만 개가 넘는 세포에 대한 사전 훈련을 통해 scGPT를 업데이트하려고 시도했습니다. 연구 결과에 따르면, scGPT는 유전자와 세포에 대한 주요 생물학적 통찰력을 효과적으로 추출하고 다중 배치 통합, 다중 오믹스 통합, 세포 유형 주석, 유전자 교란 예측, 유전자 네트워크 추론을 포함한 다양한 하위 작업에서 뛰어난 성능을 달성할 수 있는 것으로 나타났습니다.

"scGPT: 생성적 AI를 활용한 단일 세포 다중 오믹스 기반 모델 구축"이라는 제목의 연구는 Nature Methods에 게재되었습니다.
* 논문 링크:https://www.nature.com/articles/s41592-024-02201-0

2023년 9월중국 과학 아카데미의 다학제 연구팀인 Xcompass 컨소시엄은 세계 최초의 종간 생명 기반 모델인 GeneCompass를 성공적으로 구축했습니다.이 모델은 사람과 쥐의 1억 2,600만 개 이상의 단일 세포에 대한 전사체 데이터를 통합하고, 프로모터 시퀀스와 유전자 공발현 관계를 포함한 4가지 유형의 사전 지식을 융합하며, 1억 3,000만 개의 기본 모델 매개변수를 갖추고 있어 유전자 발현 조절 법칙에 대한 파노라마적 학습과 이해를 달성하는 동시에 세포 상태 변화 예측과 다양한 생명 과정에 대한 정확한 분석을 지원합니다.

해당 연구는 "GeneCompass: 지식 기반 종간 기초 모델을 통한 보편적 유전자 조절 메커니즘 해독"이라는 제목으로 bioRxiv에 게재되었습니다.

2023년 10월, 글로벌 제약 대기업 사노피는 BioMap BioScience와 대규모 전략적 파트너십을 발표했습니다. 두 당사자는 BioMap의 생명과학 AI 기반 모델을 기반으로 생물학적 치료제 발굴을 위한 최첨단 모델을 공동으로 개발할 예정입니다.

미래를 내다보면, 인간의 상상을 훌쩍 뛰어넘는 대규모 언어 모델의 복잡한 이해와 혁신적인 생성 능력을 생명의 보다 복잡한 "자연어"에 적용한다면 생명 과학의 연구 패러다임이 진정으로 바뀔 것으로 기대됩니다.

참고문헌:
1.https://www.jiqizhixin.com/articles/2023-9-29
2.https://www.tsinghua.edu.cn/info/1175/112118.htm
3.https://hope.huanqiu.com/article/4FYZxnpu88J
4.https://www.jiqizhixin.com/articles/2023-7-5-26'