IJCAI 2025 | 7개 데이터 세트 검증: scSiameseClu가 비지도 단일 셀 클러스터링 작업에서 SOTA 성능 달성

과거 생명과학 연구의 초점은 종종 "집단" 수준에 맞춰져 왔습니다. 기존의 대량 RNA-Seq를 통해 집단 내 세포의 평균 유전자 발현을 얻을 수 있었지만, 이는 일부 희귀 세포의 특성이 모호해질 수 있음을 의미합니다.오늘날 연구자들은 "단일" 세포의 목소리를 듣고자 하는 경향이 커지고 있습니다.
단일 세포 RNA 시퀀싱(scRNA-seq)은 세포 집단의 복잡한 구조 속에서도 단일 세포의 포괄적인 유전 정보를 포착하여 숨겨진 복잡한 특징을 밝혀낼 수 있는 혁신적인 기술입니다. 이 복잡한 정보를 이해하기 위해서는핵심 단계인 세포 클러스터링이 필요합니다.유전자 발현의 유사성을 기준으로 세포를 그룹화하는 것은 어려운 과정입니다.
scRNA-seq 데이터는 높은 노이즈, 높은 희소성, 그리고 높은 차원성을 특징으로 합니다. 가장 효과적인 그래프 신경망(GNN) 방식조차도 현재 "불충분한 그래프 구성"과 "표현 붕괴"라는 문제를 안고 있습니다.아래 그림에서 볼 수 있듯이, 딥러닝 기반 scNAME과 그래프 신경망 기반 scGNN 모두 표현 결과에서 점진적으로 수렴하여 표현 붕괴 정도가 다양함을 보여줍니다. 다시 말해, 세포 간 차이를 진정으로 보존할 수 있는 클러스터링 도구는 아직 부족합니다.

이러한 딜레마를 해결하기 위해 중국과학원, 동북농업대학교, 마카오대학교, 지린대학교 연구팀은 단일 세포 RNA-seq 데이터 해석을 위한 새로운 트윈 클러스터링 프레임워크인 scSiameseClu를 공동으로 제안했습니다. 이 프레임워크는 복잡한 세포 간 정보를 수집하고 정제하는 동시에 유전자 및 세포 수준에서 차별적이고 견고한 표현을 학습하는 것을 목표로 합니다.이 프레임워크는 듀얼 강화, 트윈 퓨전, 최적 전송 클러스터링이라는 세 가지 핵심 모듈을 통합합니다.이러한 설계를 통해 scSiameseClu는 표현 붕괴 문제를 효과적으로 완화하고, 더 명확한 세포 집단 분류를 달성하며, scRNA-seq 데이터 분석을 위한 강력한 도구를 제공할 수 있습니다.
"scSiameseClu: 단일 세포 RNA 시퀀싱 데이터 해석을 위한 샴 클러스터링 프레임워크"라는 제목의 관련 연구는 IJCAI 2025에 선정되었고, 사전 인쇄본은 arXiv에 게재되었습니다.
연구 하이라이트:
* scSiameseClu는 유전자 발현과 세포 지도에서 복잡한 정보를 수집하여 차별적이고 견고한 세포 임베딩을 학습하고, 클러스터링 결과와 다운스트림 작업을 개선할 수 있습니다.
* 핵심 모듈을 도입하고 "향상-융합-클러스터링"의 완전한 프레임워크를 구축했습니다.
* scSiameseClu는 클러스터링 및 기타 생물학적 작업에서 SOTA 방식보다 우수한 성능을 보입니다.

서류 주소:
공식 계정을 팔로우하고 "Twin Clustering Framework"에 답글을 남겨 전체 PDF를 받으세요.
더 많은 AI 프런티어 논문:
https://hyper.ai/papers
다양한 조직과 종을 포괄하는 7개의 실제 데이터 세트
연구팀은 scSiameseClu의 성능을 종합적으로 평가하기 위해 7개의 실제 scRNA-seq 데이터 세트를 대상으로 실험을 수행했습니다.세 개 미만의 세포에서 발현되는 유전자는 필터링, 정규화, 로그 변환(logTPM)을 거쳐, 미리 정의된 평균 및 분산 임계값을 기반으로 변동성이 높은 유전자를 선택했습니다. 이러한 전처리된 데이터세트는 마우스 샘플 3개와 인간 샘플 4개로 구성되어 있으며, 다양한 세포 유형(예: 망막, 폐, 간, 신장, 췌장)을 포함하고 있으며, 유전자 수, 세포 유형 수, 그리고 희소성(sparsity)이 다양합니다. 다음 이미지는 사용된 데이터세트의 개요를 보여줍니다.

트윈 클러스터링 프레임워크의 세 가지 모듈
연구팀이 제안한 scSiameseClu는 향상된 그래프 오토인코더를 기반으로 하는 트윈 클러스터링 프레임워크입니다. 이 프레임워크는 세 가지 모듈로 구성됩니다.
(i) 이중 증강 모듈
(ii) 시암 퓨전 모듈
(iii) 자기 감독 학습을 위한 최적 운송 클러스터링.

듀얼 강화 모듈
이 연구의 이중 강화 모듈은 "유전자 발현 증강 + 세포 지도 증강"연구팀은 모델의 잡음 강건성과 다양한 데이터셋에 대한 일반화 능력을 향상시키기 위해 가우시안 잡음을 추가하여 유전자 발현의 자연스러운 변동을 시뮬레이션함으로써 유전자 수준의 강건성을 향상시켰습니다. 에지 섭동과 그래프 확산 전략을 채택하여 각각 향상된 인접 행렬을 생성하고, 세포 그래프를 서로 다르지만 상호 보완적인 관점에서 처리함으로써 모델이 세포 간의 다양한 상호작용을 포착할 수 있도록 했습니다.
트윈 퓨전 모듈
트윈 퓨전 모듈(SFM)은 scSiameseClu의 핵심적인 혁신적 설계입니다."교차상관 정밀화"와 "적응형 정보 융합"을 통합한 전략이 채택되었습니다.구체적으로, 전자는 강화된 유전자 발현 행렬과 세포 지도 행렬을 개별적으로 처리하고 잠재 공간에서 이를 정렬하고 융합하는 자동 인코더를 구성합니다. 후자는 임베딩 집계, 자기상관 학습 및 동적 재구성을 통해 세포 관계를 통합하여 중복 정보를 효과적으로 걸러내고 잠재 공간에서 차별적 특징을 유지하여 견고하고 의미 있는 표현을 학습할 수 있게 하고, 표현 붕괴를 방지하면서 클러스터링 성능을 향상시킵니다.
또한, 이 프레임워크는 젠슨-섀넌 발산을 사용하여 원래 임베딩과 그래프 전파 후 임베딩의 일관성을 제한하는 전파 정규화 항목을 도입하여 정보 흐름을 유지하면서 그래프 신경망의 과도한 평활화 문제를 완화합니다.
최적의 전송 클러스터링
연구팀은 먼저 학생의 t-분포를 사용하여 셀과 클러스터 중심 간의 유사성을 계산한 다음, 싱크혼 알고리즘을 사용하여 예측된 분포를 정렬하고 수정했습니다.이를 통해 클러스터 분포의 균형이 보장되고 붕괴 문제가 방지됩니다.
scRNA-seq 프레임워크의 우수한 성능에 대한 다중 검증
scRNA-seq 프레임워크의 클러스터링에서 탁월한 성능은 광범위한 실험 검증의 결과입니다. 먼저, 주류 방식과의 포괄적인 비교가 수행되었습니다. 연구팀은 기존 클러스터링 방법, 심층 신경망 기반 방법, 그래프 신경망 기반 클러스터링 방법을 포함하여 9가지 최첨단 벤치마크 모델을 선정했습니다. 위에서 언급한 7가지 실제 데이터셋을 사용하여, 연구팀은 널리 알려진 세 가지 클러스터링 지표인 정확도(ACC), 정규화 상호 정보(NMI), 조정 랜드 지수(ARI)를 사용하여 성능을 평가했습니다.
결과는 scSiameseClu가 세 가지 지표 모두에서 확실한 우위를 점하고 있음을 보여줍니다. 전체 점수가 더 높을 뿐만 아니라, 다양한 데이터셋에서도 성능이 안정적으로 유지되었습니다.인간 간세포 데이터세트의 시각적 비교에서 볼 수 있듯이, scSiameseClu는 다른 벤치마크 모델에 비해 경계가 명확하고 분리가 잘 된 클러스터를 생성할 수 있으며, 다양한 세포 유형을 효과적으로 구별할 수 있습니다.

둘째, 후속 실험에서 연구팀은 세포 유형 주석(annotation)을 수행했습니다. 인간 췌장 데이터세트에서 Seurat 도구를 사용하여 차등 발현 유전자와 마커 유전자를 식별했습니다. 그런 다음 scSiameseClu 및 기타 방법을 통해 식별된 상위 50개의 마커 유전자를 표준 유전자와 비교했습니다. 그 결과, 대부분의 클러스터가 90% 이상의 유사성을 보였으며, 알려진 세포 유형과 정확하게 매핑되었습니다. 이 모델은 또한 각 클러스터의 마커 유전자를 식별했습니다.
추가적인 세포 분류 실험에서 scSiameseClu가 정확도와 F1 값 등 여러 지표에서 기준 모델보다 우수한 것으로 나타났으며, 세포 이질성과 유형 구별 능력을 보여주는 장점이 검증되었습니다.


마지막으로, 연구팀은 절제 실험에서 셰카르 마우스 망막 세포 데이터셋에서 scSiameseClu의 핵심 구성 요소(SFM 손실, ZINB 손실, OTC 손실 포함)를 제거하고 전체 모델과 비교하여 프레임워크 각 모듈의 효과를 평가했습니다. 그 결과, 각 구성 요소는 성능을 크게 향상시켰지만, 어느 한 구성 요소도 없으면 성능이 저하되는 것으로 나타났습니다. SFM 모듈을 더 분해하여 세포 의존적 정밀화, 전위 의존적 정밀화, 전파 정규화, 재구성 손실을 제거하자 성능이 저하되었습니다. 그러나 모든 구성 요소를 포함한 scSiameseClu는 상당한 성능 향상을 보이며, 유전체 및 세포 정보의 효과적인 통합을 입증했습니다.

번창하는 계산생물학의 새로운 시대를 향하여
계산생물학의 관점에서 볼 때, scSiameseClu는 컴퓨터 과학에서 이중 증강, 트윈 융합, 최적 전송 클러스터링과 같은 방법을 활용하여 생물학에서 세포 이질성을 분석하는 오랜 문제를 효과적으로 해결했습니다.이는 단순히 새로운 유형의 클러스터링 도구이며 계산 방법과 생명 과학을 심층적으로 통합하는 분야에서 떠오르는 많은 시도 중 하나라고 할 수 있습니다.또한 인공지능 알고리즘과 생물학의 급속한 발전으로 끊임없이 새로운 결과가 나오고 있습니다.
싱가포르 국립대학교 장 양 교수 연구팀은 고정밀 딥러닝 기반 RNA 구조 예측 프레임워크인 DRfold2를 제안했습니다. DRfold2는 사전 학습된 RNA 복합 언어 모델(RCLM)과 잡음 제거 구조 모듈을 통합하여 종단간 RNA 구조 예측을 수행합니다. 연구 결과는 bioRxiv 프리프린트 플랫폼에 "복합 언어 모델과 잡음 제거 종단간 학습을 이용한 이니티오 RNA 구조 예측"이라는 제목으로 게재되었습니다.
서류 주소:
https://www.biorxiv.org/content/10.1101/2025.03.05.641632v1
미국 베일러 의과대학 연구팀은 단백질 번역 후 변형(PTM)을 예측하는 딥러닝 기반 프레임워크인 DeepMVP를 제안했습니다. DeepMVP는 고품질 PTMAtlas 데이터셋을 통합하여 미스센스 변이로 인한 PTM 부위와 변형을 정확하게 예측합니다. 연구 결과는 Nature Methods에 "DeepMVP: 고품질 데이터로 학습된 딥러닝 모델이 PTM 부위와 변형으로 인한 변형을 정확하게 예측한다"라는 제목으로 게재되었습니다.
서류 주소:
https://www.nature.com/articles/s41592-025-02797-x