Skalierung großer Sprachmodelle für die nächste Generation der Einzelzellanalyse

Die Einzelzell-RNA-Sequenzierung hat unser Verständnis der zellulären Vielfalt revolutioniert, doch verfügen aktuelle Einzelzell-Grundmodelle (scFMs) über erhebliche Grenzen hinsichtlich Skalierbarkeit, Flexibilität bei unterschiedlichen Aufgaben sowie der Fähigkeit, textuelle Informationen natively zu integrieren. In dieser Arbeit bauen wir auf dem Cell2Sentence (C2S)-Framework auf, das scRNA-seq-Profilierungen als textuelle „Zell-Sätze“ darstellt, um Großsprachmodelle (LLMs) auf einer Korpus-Datenmenge mit über eine Milliarde Tokens aus transcriptomischen Daten, biologischem Text und Metadaten zu trainieren. Die Skalierung des Modells auf 27 Milliarden Parameter führt zu konsistenten Verbesserungen in prädiktiven und generativen Fähigkeiten und ermöglicht fortgeschrittene nachgelagerte Aufgaben, die die Synthese von Informationen über mehrzellige Kontexte erfordern. Durch gezieltes Fine-Tuning mit modernen Techniken des Verstärkungslernens erzielt das Modell herausragende Leistungen bei der Vorhersage von Störungsreaktionen, der Interpretation natürlicher Sprache sowie komplexer biologischer Schlussfolgerungen. Diese prädiktive Stärke ermöglichte direkt eine zweikontextbasierte virtuelle Screening-Studie, die einen auffälligen Kontextsplit für den Kinaseinhibitor Silmitasertib (CX-4945) aufdeckte und dessen Potenzial als synergistischer, interferonbedingter Verstärker der Antigenpräsentation nahelegt. Experimentelle Validierung in menschlichen Zellmodellen, die während des Trainings nicht berücksichtigt wurden, bestätigte diese Hypothese und zeigt, dass C2S-Scale biologisch fundierte, testbare Entdeckungen im Bereich kontextabhängiger Biologie generieren kann. C2S-Scale vereint transcriptomische und textuelle Daten in bisher nicht erreichter Skalierung, übertrifft sowohl spezialisierte Einzelzellmodelle als auch allgemein verwendbare LLMs und stellt eine Plattform für die nächste Generation der Einzelzellanalyse sowie die Entwicklung „virtueller Zellen“ bereit.