CellFM : un grand modèle fondation pré-entraîné sur la transcriptomique de 100 millions de cellules humaines

Le séquençage à l'échelle cellulaire unique fournit un profilage transcriptomique à la résolution de la cellule unique, révélant la hétérogénéité cellulaire avec une précision sans précédent. Cependant, l'analyse actuelle des données de cellules uniques souffre des bruits inhérents aux données, des effets de lot et de la rareté, soulignant ainsi le besoin d'un modèle unifié pour représenter les états cellulaires. Pour contourner ce problème, de nombreuses initiatives récentes se concentrent sur l'entraînement de modèles fondamentaux de cellules uniques basés sur de grands ensembles de données. Néanmoins, les modèles fondamentaux humains actuels sont encore limités par la taille des données d'entraînement et celle des paramètres du modèle. Dans cette étude, nous avons rassemblé un ensemble de données diversifié comprenant 100 millions de cellules humaines, sur lequel nous avons entraîné un modèle fondamental de cellules uniques (CellFM) contenant 800 millions de paramètres. Afin d'équilibrer efficacité et performance, le modèle a été entraîné à travers un cadre RetNet modifié sur la plateforme MindSpore. De nombreuses expériences ont démontré que CellFM surpassait les modèles existants dans l'annotation cellulaire, la prédiction des perturbations, la prédiction des fonctions géniques et la capture des relations gène-gène.