HyperAIHyperAI
il y a 10 jours

Dimensionnement des grands modèles linguistiques pour une analyse à cellule unique de nouvelle génération

Syed Asad Rizvi, Daniel Levine, Aakash Patel, Shiyang Zhang, Eric Wang, et al
Dimensionnement des grands modèles linguistiques pour une analyse à cellule unique de nouvelle génération
Résumé

La séquençage à l’unité cellulaire de l’ARN a profondément transformé notre compréhension de la diversité cellulaire, mais les modèles fondamentaux actuels à l’échelle cellulaire unique (scFMs) restent limités en matière d’évolutivité, de flexibilité face à diverses tâches, ainsi que de capacité à intégrer nativement des informations textuelles. Dans ce travail, nous nous appuyons sur le cadre Cell2Sentence (C2S), qui représente les profils scRNA-seq sous forme de « phrases cellulaires » textuelles, afin d’entraîner des grands modèles linguistiques (LLMs) sur un corpus comprenant plus d’un milliard de tokens issus de données transcriptomiques, de textes biologiques et de métadonnées. L’agrandissement du modèle à 27 milliards de paramètres permet d’obtenir des améliorations constantes des capacités prédictives et génératives, tout en soutenant des tâches ultérieures avancées nécessitant la synthèse d’informations à travers des contextes multi-cellulaires. Un fine-tuning ciblé utilisant des techniques modernes d’apprentissage par renforcement permet d’atteindre de fortes performances dans la prédiction des réponses à des perturbations, l’interprétation du langage naturel et le raisonnement biologique complexe. Cette capacité prédictive a directement permis une analyse virtuelle à double contexte, qui a révélé une séparation contextuelle remarquable pour l’inhibiteur de kinase silmitasertib (CX-4945), suggérant son potentiel d’action synergique comme amplificateur conditionnel par interféron de la présentation d’antigènes. Une validation expérimentale sur des modèles cellulaires humains non vus durant l’entraînement a confirmé cette hypothèse, démontrant que C2S-Scale peut générer des découvertes biologiquement fondées et testables, spécifiques au contexte. C2S-Scale intègre de manière sans précédent les données transcriptomiques et textuelles à grande échelle, dépassant à la fois les modèles spécialisés à l’échelle cellulaire unique et les grands modèles linguistiques généraux, pour offrir une plateforme innovante pour l’analyse cellulaire unique de nouvelle génération et le développement de « cellules virtuelles ».