HyperAI超神経
2ヶ月前

CellFM: 1億個の人間細胞の転写組み情報に基づいて大規模に事前学習された基盤モデル

Yuansong Zeng, Jiancong Xie, Ningyuan Shangguan, Zhuoyi Wei, Wenbing Li, Yun Su, Shuangyu Yang, Chengyang Zhang, Jinbo Zhang, Nan Fang, Hongyu Zhang, Yutong Lu, Huiying Zhao, Jue Fan, Weijiang Yu, Yuedong Yang
CellFM: 1億個の人間細胞の転写組み情報に基づいて大規模に事前学習された基盤モデル
要約

単一細胞シーケンスは、単一細胞解像度での転写体プロファイリングを提供し、細胞の異質性をかつてない精度で明らかにします。しかし、現在の単一細胞データ解析は、固有のデータノイズ、バッチ効果、および疎性に悩まされており、細胞状態を表現する統一モデルの必要性が強調されています。この問題を回避するために、最近の多くの研究では大規模なデータセットに基づいて単一細胞基盤モデルを学習することに焦点を当てています。しかし、現行の人間基盤モデルは、学習データとモデルパラメータのサイズによって制限されています。本研究では、1億個の人間細胞からなる多様なデータセットを集め、8億パラメータを持つ単一細胞基盤モデル(CellFM)を学習しました。効率と性能のバランスを取りながら、MindSpore上で修正されたRetNetフレームワークを使用してモデルを学習させました。広範な実験により、CellFMが既存のモデルよりも細胞アノテーション、摂動予測、遺伝子機能予測、および遺伝子-遺伝子関係の捕捉において優れていることが示されました。