10日前

次世代単細胞解析のための大規模言語モデルのスケーリング

Syed Asad Rizvi, Daniel Levine, Aakash Patel, Shiyang Zhang, Eric Wang, et al
次世代単細胞解析のための大規模言語モデルのスケーリング
要約

単細胞RNAシークエンシングは、細胞の多様性に関する理解を根本から変革してきたが、現在の単細胞基盤モデル(scFMs)はスケーラビリティ、多様なタスクへの柔軟性、そしてテキスト情報をネイティブに統合する能力において依然として限界がある。本研究では、単細胞RNAシークエンシング(scRNA-seq)プロファイルを「細胞文(cell sentences)」というテキスト表現として扱うCell2Sentence(C2S)フレームワークを基盤とし、トランスクリプトームデータ、生物学的テキスト、メタデータからなる10億トークンを超えるコーパス上で大規模言語モデル(LLMs)を学習した。270億パラメータにスケーリングすることで、予測能力および生成能力が一貫して向上し、複数の細胞状況にわたる情報統合を必要とする高度な下流タスクをサポートするようになった。現代的な強化学習技術を用いたターゲット微調整により、干渉応答予測、自然言語解釈、複雑な生物学的推論において優れた性能が得られた。この予測力の高さが、二重文脈を考慮した仮想スクリーニングを可能にし、キナーゼ阻害薬シルミタセルチブ(CX-4945)に対して顕著な文脈依存性の分岐が存在することを明らかにした。この結果は、同化合物がインターフェロン依存性の抗原提示増強剤としてシナジー効果を示す可能性を示唆している。トレーニング中に未確認のヒト細胞モデルを用いた実験的検証により、この仮説が裏付けられ、C2S-Scaleが文脈依存的な生物学的現象について、生物学的に根拠のある検証可能な発見を生成できることを示した。C2S-Scaleは、これまでにない規模でトランスクリプトームデータとテキストデータを統合し、専門的な単細胞モデルおよび汎用的なLLMを上回る性能を発揮し、次世代の単細胞解析および「仮想細胞」の開発を可能にするプラットフォームを提供する。