아크 연구소, 가상 셀 도전과제 발표: 유전자 침묵 효과 예측 모델 개발 목표 설정
Arc Virtual Cell Challenge: 간략한 소개 Arc 연구소는 최근 가상 셀 챌린지(Virtual Cell Challenge)를 공개했습니다. 이 챌린지의 목표는 CRISPR을 사용해 특정 유전자를 침묵시킨 경우 세포에 미치는 영향을 예측하는 모델을 개발하는 것입니다. 생물학 배경이 없는 AI 엔지니어들에게 이 챌린지는 낯설고 어려울 수 있지만, 이를 더 이해하기 쉽게 설명하겠습니다. 목표 CRISPR을 통해 유전자를 침묵시키면 세포에 어떤 변화가 일어나는지를 예측하는 모델을 훈련시키는 것입니다. 실제 실험은 비용이 많이 들고 시간이 오래 걸리며 실수도 잦기 때문에, 이 챌린지는 이러한 문제를 해결하고 다양한 약물 후보 물질을 빠르게 테스트할 수 있는 가상 환경을 제공하려는 것입니다. 정확한 예측 모델을 개발하면 생명 과학 연구 분야에서 큰 영향을 미칠 것입니다. 훈련 데이터 훈련 데이터셋은 약 30만 개의 단일 세포 RNA 시퀀싱 프로필로 구성되어 있습니다. 이 중 38,000개의 세포는 침묵된 유전자가 없어 제어 세포(control cell)로 분류됩니다. 각 세포의 전사체(trascriptome)는 희소 행 벡터로 표현되며, 각 항목은 해당 유전자에 의해 인코딩되는 RNA 분자의 원시 수를 나타냅니다. 예를 들어, 데이터셋에서 가장 자주 침묵된 유전자인 TMSB4X를 살펴보면, 침묵된 세포에서는 제어 세포보다 RNA 분자의 수가 크게 줄어들음을 확인할 수 있습니다. 모델링 과정 유전자를 침묵시키기 전후의 RNA 분자 수를 직접 측정하면 좋겠지만, 전사체를 측정하는 과정에서 세포가 파괴되기 때문에 가능하지 않습니다. 이는 관찰 효과와 비슷한 문제입니다. 따라서 we는 침묵되지 않은 제어 세포 집단을 기준점으로 사용해야 합니다. 그러나 제어 세포와 침묵된 세포는 침묵 전에도 완전히 동질적이지 않아, 진정한 신호(침묵 효과)와 제어 세포의 이질성으로 인한 노이즈를 구분해야 합니다. STATE: Arc의 기준 모델 가상 셀 챌린지 출시 전, Arc는 기존 문제를 해결하기 위한 자체 모델인 STATE(State Transition and Embedding)를 발표했습니다. 이 모델은 참가자들이 시작할 수 있는 강력한 기준(baseline)을 제공합니다. STATE는 두 개의 모델로 구성되어 있습니다: State Transition Model(ST)와 State Embedding Model(SE). State Transition Model (ST) ST는 CRISPR를 통한 유전자 침묵 효과를 시뮬레이션하는 모델입니다. 이 모델은 제어 세포의 전사체 또는 SE 모델이 생성한 세포 임베딩, 그리고 침묵하고자 하는 유전자를 나타내는 원핫 인코딩 벡터를 입력으로 받아, 침묵된 전사체를 출력합니다. ST는 Llama 백본을 사용하는 간단한 트랜스포머 모델로, 제어 세포와 대응하는 타겟 세포를 함께 사용하여 실제 침묵 효과를 판별하는 데 도움이 됩니다. 두 텐서는 각각 독립적인 인코더를 거쳐 처리되며, 이 인코더는 4층 MLP와 GELU 활성화 함수로 구성되어 있습니다. State Embedding Model (SE) SE는 BERT와 유사한 방식으로 마스킹 예측 작업을 통해 학습되는 모델입니다. SE의 주요 목표는 의미 있는 세포 임베딩을 생성하는 것입니다. 이를 위해 먼저 의미 있는 유전자 임베딩을 만들어야 합니다. 유전자 임베딩은 해당 유전자가 부호화하는 모든 단백질 아형(protein isoform)의 아미노산 서열을 취한 후, FAIR의 150억 파라미터 단백질 언어 모델인 ESM2를 통해 처리됩니다. ESM2는 각 아미노산에 대한 임베딩을 생성하며, 이를 평균 풀링(mean pooling)하여 단백질 아형 임베딩을 얻습니다. 이후, 각 단백질 아형 임베딩을 다시 평균 풀링하여 유전자 임베딩을 생성합니다. 세포 임베딩을 얻으려면, 각 세포를 로그 폴드 표현 수준(log fold expression level)으로 상위 2048개 유전자로 표현합니다. 이를 "세포 문장(cell sentence)"으로 구성하며, [CLS]와 [DS] 토큰을 추가합니다. [CLS] 토큰은 "세포 임베딩"으로 사용되고, [DS] 토큰은 "데이터셋 특이적 효과"를 분리하는 데 사용됩니다. 유전자 임베딩의 크기를 조절하기 위해, 위치 임베딩과 유사한 방식으로 "표현 임베딩(expression encodings)"을 생성하여 각 유전자 임베딩에 추가합니다. 이 과정은 각 유전자의 전사체에서 얼마나 강하게 표현되는지를 조절합니다. 모델은 각 세포에서 1280개의 유전자를 마스킹하고 이를 예측하도록 훈련됩니다. 1280개의 유전자는 다양한 표현 강도를 가지도록 선택됩니다. 평가 방법 참가자의 제출물을 평가하기 위한 3가지 평가 지표가 있습니다: Perturbation Discrimination, Differential Expression, Mean Average Error. Mean Average Error는 단순하고 명확하므로 여기서 생략하겠습니다. Perturbation Discrimination Perturbation Discrimination은 모델이 침묵 효과 사이의 상대적인 차이를 얼마나 잘 발견하는지를 평가합니다. 이를 위해 테스트셋의 모든 측정된 침묵된 전사체와 예측된 전사체 간의 맨해튼 거리를 계산합니다. 예측된 전사체와 가장 가까운 실제 전사체의 순위를 계산하여, 점수를 다음과 같이 정규화합니다: [ \text{PDisc}_t = \frac{r_t}{T} ] 여기서 ( r_t )는 예측된 전사체와 실제 전사체 사이의 거리가 다른 모든 예측된 전사체와의 거리보다 작은 경우의 수이고, ( T )는 전체 전사체의 수입니다. 0은 완벽한 매칭을 의미하며, 최종 점수는 모든 ( \text{PDisc}_t )의 평균입니다. Differential Expression Differential Expression은 실제로 영향을 받은 유전자를 얼마나 정확히 식별했는지를 평가합니다. 각 유전자에 대해 예측된 침묵 분포와 실제 침묵 분포 사이에서 윌콕슨 순위합 검정(Wilcoxon rank-sum test)을 사용하여 p-value를 계산합니다. 그 다음, Benjamini-Hochberg 절차를 적용하여 p-value를 조정합니다. 예측된 차등 발현 유전자 집합 ( G_{p,\text{pred}} )와 실제 차등 발현 유전자 집합 ( G_{p,\text{true}} )의 교집합을 구하여, 점수를 다음과 같이 계산합니다: [ DE_p = \frac{G_{p,\text{pred}} \cap G_{p,\text{true}}}{n_{p,\text{true}}} ] 예측 집합의 크기가 실제 집합의 크기보다 클 경우, 가장 차등 발현된 것으로 예측된 유전자 집합 ( \tilde{G}_{p,\text{pred}} )를 선택하여, 교집합을 구하고 점수를 계산합니다. 모든 예측 침묵에 대해 이 과정을 반복하여 최종 점수를 얻습니다. 결론 이 챌린지에 관심이 생겼다면 어떻게 시작해야 할까요? 다행히도, Arc는 STATE 모델을 훈련하는 전체 과정을 안내하는 Colab 노트북을 제공합니다. 또한, STATE 모델은 곧 Hugging Face의 transformers 라이브러리에 포함될 예정이므로, 사전 훈련된 모델을 사용하는 것은 매우 간단할 것입니다: ```python import torch from transformers import StateEmbeddingModel model_name = "arcinstitute/SE-600M" model = StateEmbeddingModel.from_pretrained(model_name) input_ids = torch.randn((1, 1, 5120), dtype=torch.float32) mask = torch.ones((1, 1, 5120), dtype=torch.bool) mask[:, :, 2560:] = False outputs = model(input_ids, mask) ``` 모든 참가자들에게 행운을 빕니다! 업계 전문가의 평가 가상 셀 챌린지는 AI와 생명 과학의 융합을 촉진하며, 새로운 약물 개발 과정을 획기적으로 가속화할 가능성이 있습니다. Arc의 STATE 모델은 이 분야에서 중요한 기준을 설정하였으며, 참가자들이 이를 바탕으로 더 나은 성능을 내도록 지원할 것입니다. Arc 연구소는 이러한 혁신적인 접근법을 통해 생명 과학 연구의 새로운 패러다임을 제시하고 있습니다.