HyperAI초신경
2달 전

CellFM: 1억 개의 인간 세포 전사체 데이터로 사전 학습된 대규모 기반 모델

Yuansong Zeng, Jiancong Xie, Ningyuan Shangguan, Zhuoyi Wei, Wenbing Li, Yun Su, Shuangyu Yang, Chengyang Zhang, Jinbo Zhang, Nan Fang, Hongyu Zhang, Yutong Lu, Huiying Zhao, Jue Fan, Weijiang Yu, Yuedong Yang
CellFM: 1억 개의 인간 세포 전사체 데이터로 사전 학습된 대규모 기반 모델
초록

단일세포 시퀀싱은 단일 세포 해상도에서 전사체 프로파일링을 제공하여 세포의 이질성을 전례 없는 정밀도로 밝혀냅니다. 그러나 현재 단일 세포 데이터 분석은 고유한 데이터 노이즈, 배치 효과, 및 희소성으로 인해 어려움을 겪고 있어, 세포 상태를 표현하기 위한 통합 모델의 필요성이 강조되고 있습니다. 이러한 문제를 해결하기 위해 최근 많은 연구가 대규모 데이터셋을 기반으로 한 단일세포 기초 모델의 학습에 초점을 맞추고 있습니다. 그러나 현재의 인간 기초 모델은 여전히 학습 데이터와 모델 매개변수의 크기로 제한받고 있습니다. 본 연구에서는 1억 개의 인간 세포로 구성된 다양한 데이터셋을 수집하여, 8억 개의 매개변수를 포함하는 단일세포 기초 모델(CellFM)을 학습시켰습니다. 효율성과 성능 사이의 균형을 맞추기 위해, 이 모델은 MindSpore(마인드스포)에서 수정된 RetNet 프레임워크를 통해 학습되었습니다. 광범위한 실험 결과, CellFM은 세포 주석, 간섭 예측, 유전자 기능 예측, 및 유전자-유전자 관계 포착 측면에서 기존 모델들을 능가함을 보여주었습니다.