미시건대 연구팀, miniQuant으로 유전자 이형체 정량 문제 해결
미시간대학교의 구건휘 교수 연구팀이 새로운 알고리즘 miniQuant를 개발하여 20년 동안 지속된 RNA 시퀀싱 분야의 중요한 성과를 이루었습니다. 최근 구 교수팀은 Nature Biotechnology에 논문을 발표하며, 이 알고리즘이 유전자 이소형(유전자 이소성) 정량화 문제를 효과적으로 해결한다고 밝혔습니다. 유전자 이소형은 하나의 유전자가 다양한 mRNA 버전을 생성하는 현상을 말하며, 이는 생명체의 복잡성을 크게 풍부하게 만듭니다. 그러나 이들 이소형의 표정 수준을 정확히 측정하는 것은 생물정보학에서 오랜 시간 동안 해결되지 못한 문제였습니다. 현재 주요 시퀀싱 기술은 2세대와 3세대로 나뉩니다. 2세대 시퀀싱, 예를 들어 Illumina 플랫폼은 짧은 읽기 길이(약 150bp)를 가지고 있지만, 생산성이 높고 비용이 저렴합니다. 반면 3세대 시퀀싱, PacBio와 ONT(Oxford Nanopore Technologies)는 긴 읽기 길이(수만 bp)를 제공하여 전체 RNA 분자를 커버할 수 있지만, 생산성이 낮고 비용이 높습니다. 따라서 연구자들은 때에 따라 어떤 기술을 사용해야 할지 고민해 왔습니다. 이 문제를 해결하기 위해 연구팀은 K 값을 도입했습니다. K 값은 유전자 이소형 정량화 과정에서의 불확실성을 측정하는 유전자 특이성 지표로, 일반화 조건수(generalized condition number)를 기반으로 합니다. K 값은 읽기-이소형 매칭 확률 행렬 A의 최대 및 최소 양의 특이값의 비율로 정의되며, 관찰 오류가 상대적으로 작은 경우 K 값이 높을수록 이소형 정량화의 상대 오차가 증가하는 경향이 있다는 것이 수학적으로 증명되었습니다. 연구팀은 GTEx, TCGA, ENCODE 연합의 17,000개 이상의 공공 데이터셋을 대규모 분석하여 K 값의 유효성을 검증했습니다. 결과는 K 값이 1에서 25를 초과할수록 GTEx, TCGA, ENCODE 데이터셋에서 MARD(Mean Absolute Relative Difference) 중간값이 각각 0.1830, 0.1559, 0.1721 증가함을 보여주었습니다. 이는 다양한 생물학적 배경, 샘플 리소스, 시퀀싱 플랫폼, 데이터 품질 조건에서도 일관되게 나타나 K 값이 내재적 정량 오차 지표로서의 강건성을 입증하였습니다. K 값 이론을 기반으로 구 교수팀은 miniQuant 소프트웨어를 개발하였는데, 이는 짧은 읽기와 긴 읽기의 장점을 통합한 혁신적인 도구입니다. miniQuant는 두 가지 모드를 제공하는데, miniQuant-L은 오직 긴 읽기를 사용하여 정량화를 수행하고, miniQuant-H는 핵심 혁신인 혼합 모드로 짧은 읽기와 긴 읽기 데이터를 결합합니다. 구 교수는 "K 값을 사용하여 연구자가 2세대 시퀀싱과 3세대 시퀀싱 중 어느 것을 선택해야 하는지를 설계하는 데 도움을 줄 수 있다"고 설명했습니다. miniQuant-H는 유전자 구조 특성(포함 K 값)과 데이터 특성을 고려하여 각 유전자 그룹(gene community)에 대해 최적의 짧은 읽기와 긴 읽기 가중치 조합을 결정하는 머신러닝 방법을 사용합니다. 복잡한 구조를 가진 유전자(높은 K 값)의 경우, 알고리즘은 해독 오차를 줄이기 위해 긴 읽기에 더 큰 가중치를 부여하며, 낮은 표현량을 가진 유전자(낮은 K 값)의 경우, 샘플링 오차의 영향을 줄이기 위해 짧은 읽기의 가중치를 증가시킵니다. 예를 들어, K 값이 82.26이고 상대적으로 높은 표현량을 가진 VPS13D 유전자에는 0.75의 긴 읽기 가중치가 배정되었으며, K 값이 5.37이고 상대적으로 낮은 표현량을 가진 TCP11L2 유전자에는 0.25의 최적 긴 읽기 가중치가 배정되었습니다. 다양한 벤치마크 테스트에서 miniQuant-H는 뛰어난 성능을 보였습니다. 시뮬레이션 데이터 테스트에서는 여러 시퀀싱 깊이 조합에서 평균 중간값 MARD가 0.1249로, 기존 짧은 읽기 도구(0.1505-0.3555)와 긴 읽기 도구(0.2515-0.9394)보다 크게 우월했습니다. 실제 데이터 검증에서는 LRGASP 연합의 합성 스파이크 인(spike-in) 전사체 데이터를 사용하여, 단일 이소형 유전자인 ERCC 스파이크 인 전사체에서는 짧은 읽기 도구가 긴 읽기 도구보다 우수한 성능을 보였으나, miniQuant-H는 짧은 읽기 도구와 유사한 정밀도를 달성했습니다. 복잡한 구조를 가진 SIRV 스파이크 인 전사체에서는 긴 읽기 도구가 더 우수했지만, miniQuant-H는 가장 낮은 평균 오차를 기록했습니다. 연구팀은 miniQuant를 인간 배아줄기세포(Embryonic Stem Cell, ESC) 분화 연구에 적용하여, 배아줄기세포가 후두내장벽(Pharyngeal Endoderm, PE)과 원시생식세포(PGCLC, Primordial Germ Cell-like Cells)로 분화되는 과정에서의 이소형 전환 사건을 밝혀냈습니다. ESC에서 PE와 PGCLC로 분화하는 과정에서 각각 151개와 161개의 이소형 전환 유전자가 식별되었습니다. 이러한 발견은 중요한 생물학적 의미를 가지고 있으며, MAT2B 유전자의 경우 전체 표현 수준이 안정적이었지만, 이소형 사용 패턴이 크게 변화하여 세포 사멸 조절 능력에 영향을 미칠 가능성이 있습니다. 특히, 이러한 중요한 이소형 전환 사건은 많은 경우 고표현 유전자(82-99 백분위, TPM 30.60-1,077.09)에서 발생하며, 긴 읽기 시퀀싱만 사용할 경우 표본 오차로 인해 정량화 결과가 신뢰할 수 없어집니다. 하지만 miniQuant-H는 짧은 읽기 데이터를 통합함으로써 더 넓은 유전자 표현 범위에서 이소형 전환 패턴을 안정적으로 감지할 수 있습니다. 기존의 통합 방법들과 비교할 때 miniQuant는 기술적으로 명확한 장점을 보였습니다. StringTieMix는 비교적 간단한 읽기 할당 전략을 사용하여 각 짧은 읽기를 가장 많은 긴 읽기 지원을 받는 호환 이소형에 할당하는 방식을 취해 시뮬레이션 데이터에서 제한적인 성능을 보였습니다. 반면 miniQuant-H는 복잡한 머신러닝 모델과 결합 우도 함수를 통해 더 정확하고 적응적인 데이터 통합을 실현하였습니다. 이 연구는 이론적 측면과 실용적 측면에서 두 가지 중요한 진전을 이루었습니다. 첫째, 유전자 이소형 정량화의 신뢰성을 평가하는 수학적 프레임워크를 설립하였으며, 둘째, 특정 데이터 특성과 유전자 구조에 따라 최적의 전략을 자동으로 선택하는 소프트웨어 도구를 제공하였습니다. 구 교수는 "이는 처음으로 연구자들에게 어떤 유전자가 복잡한지, 어떤 유전자가 단순한지, 그리고 언제 다른 시퀀싱 기술을 선택해야 하는지를 엄격한 과학적 방법으로 알려주는研究成果"이라고 요약하였습니다. 검토자들도 이 연구가 "분야 내 오랫동안 해결되지 않았던 문제에 대한 답변"이라고 평가했습니다. 현재 miniQuant 소프트웨어는 GitHub 플랫폼(https://github.com/Augroup/miniQuant)에서 오픈소스로 발행되어 있으며, 다양한 시퀀싱 플랫폼과 깊이 조합에 대한 사전 훈련된 모델(cDNA-PacBio, cDNA-ONT, dRNA-ONT 등 프로토콜)을 제공하고 있습니다. 장 읽기 시퀀싱 기술의 비용 감소와 정확도 향상으로, 이와 같은 짧은 읽기와 긴 읽기의 장점을 결합하는 방법은 전사체 연구에 더욱 정확하고 경제적인 솔루션을 제공할 것으로 기대됩니다. 이를 통해 유전자 이소형 기능 연구가 더 깊은 단계로 발전할 것으로 전망됩니다.