다음 세대 단일세포 분석을 위한 대규모 언어 모델의 확장

단세포 RNA 시퀀싱은 세포 다양성에 대한 우리의 이해를 혁신적으로 전환시켰지만, 현재의 단세포 기반 모델(ScFMs)은 확장성, 다양한 작업에 대한 유연성, 그리고 텍스트 정보를 내재적으로 통합할 수 있는 능력 측면에서 여전히 한계를 지닌다. 본 연구에서는 단세포 RNA 시퀀싱 프로파일을 텍스트 형태의 ‘세포 문장(Cell Sentence)’으로 표현하는 Cell2Sentence(C2S) 프레임워크를 기반으로, 10억 개 이상의 토큰에 달하는 전사체 데이터, 생물학적 텍스트 및 메타데이터로 구성된 코퍼스를 기반으로 대규모 언어 모델(LLM)을 훈련시켰다. 270억 파라미터 규모로 모델을 확장함으로써 예측 및 생성 능력이 일관되게 향상되었으며, 다세포적 맥락 간 정보 통합을 요구하는 고급 후속 작업을 지원할 수 있게 되었다. 최신 강화학습 기법을 활용한 타겟형 미세조정은 조작 반응 예측, 자연어 해석, 복잡한 생물학적 추론 등에서 뛰어난 성능을 달성하였다. 이러한 예측 능력은 이중 맥락 기반 가상 스크리닝을 가능하게 하여, 키나아제 억제제 실미타세르티브(CX-4945)에 대해 놀라운 맥락 분리 현상을 발견하게 했으며, 이는 이 약물이 항원 제시를 조절하는 보조적, 인터페론 조건부 증폭제로서의 잠재력을 시사한다. 훈련 과정에서 미리 접하지 않은 인간 세포 모델에서의 실험적 검증을 통해 이 가설이 확인되었으며, C2S-Scale가 맥락 조건부 생물학에 기반한 검증 가능한 생물학적 발견을 생성할 수 있음을 입증하였다. C2S-Scale는 전사체 데이터와 텍스트 데이터를 사전에 없던 수준의 규모로 통합하며, 전용 단세포 모델과 일반 목적 LLM을 모두 뛰어넘어 차세대 단세포 분석 및 ‘가상 세포(Virtual Cells)’ 개발을 위한 플랫폼을 제공한다.