DeepMind는 모든 세포 유형과 모달리티에 대한 돌연변이의 영향을 1초 안에 예측하는 AlphaGenome을 출시했습니다.

Google DeepMind의 Alpha 시리즈에 새로운 멤버인 AlphaGenome이 추가되었습니다.이 기술은 인간 DNA 서열의 단일 변형이나 돌연변이가 유전자를 조절하는 일련의 생물학적 과정에 어떤 영향을 미치는지 보다 포괄적이고 정확하게 예측할 수 있습니다.
AlphaGenome 모델은 최대 100만 개의 염기쌍으로 구성된 DNA 서열을 입력으로 받아 조절 활동과 관련된 수천 개의 분자적 특성을 예측합니다.동시에, 변이체와 비변이체 서열의 예측 결과를 비교하여 유전자 변이 또는 돌연변이의 영향을 평가할 수 있습니다. 이 모델은 DeepMind의 기존 유전체 모델인 Enformer를 기반으로 구축되었으며, 단백질 코딩 영역 변이 분류에 중점을 둔 AlphaMissense 모델을 보완합니다.
논문의 공동 제1저자인 Jun Cheng은 자신의 X 계정에서 "RNA 스플라이싱 오류는 많은 질병의 흔한 원인입니다. 우리는 RNA-seq 커버리지, 스플라이싱 부위, 부위 사용률, 그리고 이들이 형성하는 특정 스플라이싱 접합부를 동시에 예측할 수 있는 통합 모델을 처음으로 구축했습니다. 이를 통해 스플라이싱 결과의 전반적인 그림을 더욱 포괄적으로 표현할 수 있게 되었습니다."라고 밝혔습니다. 그는 또한 다음과 같이 강조했습니다.AlphaGenome의 중요한 혁신 중 하나는 "시퀀스에서 직접 스플라이싱 접합을 예측하고 이를 사용하여 변이 효과를 예측하는 능력"입니다.
메모리얼 슬론 케터링 암 센터의 케일럽 라로 박사는 "이것은 이 분야의 이정표입니다."라고 말했습니다.처음으로 우리는 장기적 맥락, 단일 기반 정확도, 최첨단 성능을 결합한 모델을 갖게 되었습니다.DeepMind는 AlphaGenome API를 통해 비상업적 연구 사용자에게 미리보기 버전을 공개했으며, 향후 공식적으로 모델을 출시할 계획입니다.
* 연구 논문 링크:
U-Net과 유사한 디자인을 사용하여 100만 개의 DNA 시퀀스와 종 정보를 기반으로
아래 그림 a에서 보듯이, 딥러닝 모델인 AlphaGenome은 1Mb(백만 염기)의 DNA 시퀀스와 종 정보(인간/쥐)를 입력으로 받습니다.다양한 세포 유형을 예측하기 위한 5,930개의 인간 게놈 유전자좌 또는 1,128개의 마우스 게놈 유전자좌다음을 포함하여 11가지 출력 유형을 포함합니다.
* 유전자 발현(RNA-seq, CAGE, PRO-cap)
* 세부적인 스플라이싱 패턴(스플라이스 사이트, 스플라이스 사이트 사용 빈도, 스플라이스 접합부)
* 크로마틴 상태(DNase, ATAC-seq, 히스톤 변형, 전사인자 결합)
* 크로마틴 접촉 지도

모델 아키텍처 측면에서,AlphaGenome은 U-Net과 유사한 백본 아키텍처 디자인을 채택했습니다.아래 그림 a에 표시된 것처럼 입력 시퀀스는 두 가지 유형의 시퀀스 표현으로 효율적으로 처리될 수 있습니다.
1차원 임베딩(1bp 및 128bp 해상도): 선형 게놈 시퀀스를 나타내며 게놈 궤적을 예측하는 데 사용됩니다.
* 2차원 임베딩(해상도 2048bp): 게놈 조각 간의 공간적 상호작용을 나타내며 쌍별 접촉 맵을 예측하는 데 사용됩니다.

모델의 합성곱 계층은 세밀한 예측을 지원하기 위해 로컬 시퀀스 패턴을 모델링하는 데 사용되는 반면, 트랜스포머 모듈은 인핸서와 프로모터 간의 상호작용과 같은 더 긴 범위의 종속성을 모델링하는 데 사용됩니다. 이 모델은 분산 시퀀스 병렬 처리 덕분에 1Mb 전체 시퀀스에서 단일 염기를 기반으로 학습할 수 있으며, 상호 연결된 8개의 TPUv3 장치에서 실행할 수 있습니다.
모델 학습 측면에서,연구자들은 사전 훈련과 증류라는 두 단계의 훈련을 채택했습니다.사전 학습 단계에서는 기존 실험 데이터를 사용하여 아래 그림 b에 표시된 것처럼 두 가지 유형의 모델을 학습합니다.
* 폴드별 모델:학습은 4겹 교차 검증(four-fold cross-validation) 방식을 사용하여 수행되었습니다. 즉, 참조 유전체 세그먼트의 3/4을 학습에 사용하고 나머지 1/4을 검증 및 테스트에 사용했습니다. 이 모델들은 AlphaGenome이 보이지 않는 참조 유전체 세그먼트에 대한 유전체 궤적을 예측하는 일반화 능력을 평가하는 데 사용되었습니다.
* 모든 접이식 모델:교사 모델은 아래 그림 c에 표시된 대로 다음 증류 단계로 참조 게놈의 모든 사용 가능한 세그먼트에 대해 학습됩니다.

증류 단계에서 연구자들은 사전 훈련된 아키텍처를 공유하는 학생 모델을 훈련했습니다.목표는 무작위로 증가된 입력 시퀀스를 사용하여 여러 개의 완전히 접힌 교사 모델의 결합된 출력을 예측하는 것입니다.이전 연구에 따르면 이 정제된 모델은 하나의 모델 인스턴스에서 더 강력한 견고성과 더 높은 변이 효과 예측(VEP) 정확도를 동시에 달성할 수 있는 것으로 나타났습니다.
이 설계 덕분에 Student 모델은 단일 장치 호출로 모든 모달리티와 세포 유형의 변화 효과를 예측하는 작업을 완료할 수 있습니다.NVIDIA H100 GPU에서는 각 변형에 대한 예측이 1초도 걸리지 않습니다.이를 통해 기존의 다중 모델 통합 방법에 비해 대규모 변동 효과를 예측하는 데 매우 효율적입니다.
AlphaGenome은 다양한 게놈 예측 작업에서 선두를 달리고 있습니다.
DeepMind에 따르면 AlphaGenome은 기존 방법에 비해 다음과 같은 고유한 장점을 가지고 있습니다.
긴 시퀀스 컨텍스트 + 단일 염기 분해능
AlphaGenome은 최대 백만 개의 염기 길이까지 DNA 서열을 분석하고 단일 염기 수준에서 예측을 수행할 수 있습니다. 이를 통해 조절 유전자의 먼 영역까지 분석하는 동시에 세밀한 생물학적 세부 정보를 포착할 수 있습니다. 이전 모델들은 서열 길이와 예측 정확도의 균형을 맞추는 데 집중하여 모델링 가능한 모델의 범위와 정확도를 제한했습니다. AlphaGenome의 획기적인 기술은 이러한 한계를 극복하여 기존 Enformer 모델 대비 절반의 컴퓨팅 리소스만 사용하여 학습을 수행하고 단 4시간 만에 학습 세션을 완료합니다.
포괄적인 다중 모드 예측 기능
고해상도와 긴 입력 시퀀스의 조합을 통해 AlphaGenome은 전례 없이 다양한 조절 패턴을 예측하여 연구자들에게 보다 체계적인 유전자 조절 정보를 제공합니다.
효율적인 돌연변이 점수 매기기
AlphaGenome은 변이의 영향을 1초 이내에 평가할 수 있습니다. 변이 전후의 서열에서 예측된 차이를 비교하고 다양한 분석 방식에 가장 적합한 요약 방법을 사용하여 유전 변이가 분자 메커니즘에 미치는 잠재적 영향을 빠르고 정확하게 평가할 수 있습니다.
새로운 스플라이스 사이트 모델링
AlphaGenome은 RNA 스플라이싱 접합부의 위치와 발현 수준을 서열 기반으로 직접 예측하는 혁신적인 기술을 제공합니다. 척수성 근위축증이나 특정 유형의 낭포성 섬유증과 같은 많은 희귀 유전 질환이 스플라이싱 오류와 관련이 있으며, 이러한 기능은 관련 병인 연구에 새로운 도구를 제공합니다.
벤치마크에서 우수한 성능
AlphaGenome은 DNA 구조적 근접성 예측, 유전자 발현에 대한 돌연변이의 영향, 스플라이싱 패턴 변화 등 다양한 유전체 예측 과제에서 선두를 달리고 있습니다. 24개의 DNA 서열 예측 평가 중 22개에서 기존 최고 모델을 능가했으며, 26개의 돌연변이 효과 평가 중 24개에서 현재 최고 모델에 도달하거나 능가했습니다. 더 중요한 것은, 모든 평가 방식에 대한 공동 예측을 수행할 수 있는 유일한 모델이라는 점이며, 이는 뛰어난 다재다능함을 보여줍니다.
특히 AlphaGenome 모델의 성능을 평가하기 위해,연구진은 변이 효과에 대한 고품질 예측을 달성하기 위한 전제 조건인 보이지 않는 게놈 부분에 대한 일반화 능력을 먼저 조사했습니다.그들은 모델이 예측한 11가지 모달리티를 모두 포괄하는 총 24개의 유전체 궤적 예측 평가를 수행했습니다. 교차 검증 아웃-폴드 평가에서, 연구진은 사전 훈련된 폴드별 AlphaGenome 모델을 사용하여 각 과제에서 예측값을 현재 가장 강력한 외부 모델과 비교했습니다.
결과는 다음과 같습니다AlphaGenome은 24개 평가 중 22개에서 해당 외부 모델보다 우수한 성과를 보였습니다.아래 그림 d에서 볼 수 있듯이, 세포 유형별 유전자 발현 변화(로그-폴드 변화, LFC) 예측 과제에서 AlphaGenome은 다른 다중 모드 시퀀스 모델인 보르조이와 비교하여 +17.4%의 상대적 성능 향상을 보였습니다(아래 그림 e 참조).
또한, AlphaGenome은 다양한 작업에서 단일 모드에 집중하는 전문 모델을 능가했습니다. 예를 들면 다음과 같습니다.
크로마틴 접촉 지도 예측에서,AlphaGenome은 Orca 모델을 능가하는데, 이는 아래 그림 d에서 볼 수 있듯이 접촉 맵의 피어슨 상관 계수가 +6.3% 증가하고 세포 유형별 차이가 +42.3% 증가하는 데서 알 수 있습니다.
전사 시작 부위 트랙의 예측에서,AlphaGenome은 ProCapNet보다 성능이 뛰어나며, 전체 피어슨 상관 계수가 +15% 향상되었습니다.
크로마틴 접근성 예측에서,AlphaGenome은 ChromBPNet보다 성능이 뛰어나며, ATAC-seq에서는 +8%, DNase-seq에서는 +19% 향상되었습니다.

* 그림 e: 부분 변형 효과를 예측하는 작업에서 AlphaGenome의 상대적 성능 향상.
업계 이정표, 높은 평가를 받다
AlphaGenome이 이 블록버스터 모델을 출시했다는 소식이 발표된 이후로 트위터에서는 격렬한 토론이 계속되고 있습니다.
DeepMind의 연구 부사장인 푸시밋 콜리는 "AlphaGenome은 DNA 변이의 영향을 예측하여 인간의 비코딩 유전체에 대한 포괄적인 관점을 제공합니다."라고 말했습니다.이를 통해 질병 생물학에 대한 이해가 깊어지고 새로운 연구 분야가 열릴 것입니다."댓글란에서는 감탄과 칭찬 외에도, 그것을 어떻게 활용할지에 대해 모두가 더 관심을 갖고 있습니다.

에든버러 대학의 유전학 박사과정 학생은 이렇게 말했습니다."이 모델은 질병을 유발하는 돌연변이와 약물 표적을 발견하는 방식을 완전히 새롭게 정의할 수 있으며, 이는 매우 중요한 의미를 갖습니다."

생물학 분야의 한 평론가는 "알파게놈은 단순한 유전자가 아니라 전체 조절 유전체입니다. DNA를 코드로 비유한다면, 알파게놈은 코드로 구성된 소프트웨어입니다."라고 말했습니다.

실제 적용 측면에서 AlphaGenome은 광범위한 과학적 연구 잠재력을 가지고 있습니다.예를 들어, 직면질병 메커니즘 연구,이 기술은 유전자 변이가 조절 과정에 미치는 영향을 더욱 정확하게 예측하고, 잠재적인 병원성 변이를 식별하며, 새로운 표적을 밝혀낼 수 있습니다. 특히 유의미한 영향을 미치는 희귀 변이를 연구하는 데 적합합니다.존재하다합성생물학 분야에서는신경 세포에서만 표적 유전자를 활성화하는 등 특정 조절 기능을 위한 DNA 설계를 지시합니다.존재하다기초 유전체학 연구에서는 다음과 같은 것이 가능합니다.주요 기능 요소의 국소화와 역할 정의를 가속화하고, 특정 세포 유형의 기능을 조절하는 데 필요한 "핵심 지침"을 식별하는 데 도움이 됩니다.
런던대학교(UCL)의 마크 만수르 교수는 "알파게놈은 비코딩 변이의 역할을 대규모로 규명하는 데 중요한 단서를 제공하여 암과 같은 복잡한 질병을 더 잘 이해할 수 있도록 해줍니다."라고 말했습니다. 현재 알파게놈은 비상업적 목적의 연구에 개방되어 있으며, 이를 바탕으로 학계에서 더 많은 성과를 낼 수 있기를 기대합니다.