DeepMind는 비지도 학습을 사용하여 7,100만 개의 유전자 돌연변이를 예측하는 AlphaMissense를 개발했습니다.

인간 유전체는 총 31억 6천만 개의 염기쌍으로 구성되어 있으며, 이 염기쌍은 끊임없이 복제, 전사, 번역을 거치고 있으며, 언제든지 오류와 돌연변이가 발생할 위험이 있습니다.
미스센스 돌연변이는 유전자 돌연변이의 흔한 형태이지만, 인간은 지금까지 그 중 아주 작은 부분만을 관찰했으며, 해석할 수 있는 것은 0.1%에 불과합니다.
미스센스 돌연변이의 영향을 정확하게 예측하는 것은 희귀 질병과 유전 질환의 연구와 예방에 중요한 역할을 합니다. 이번에도 딥마인드는 다시 조치를 취했습니다.
저자 | 쉐차이
편집자 | 세 마리 양, 철탑
본 기사는 HyperAI WeChat 공개 플랫폼에 처음 게재되었습니다.~
인간 유전체는 총 31억 6천만 개의 염기쌍을 가지고 있습니다. 이러한 염기쌍은 매일 복제, 전사, 번역을 거치며 궁극적으로 인간의 일상적인 생리 활동을 조절하는 단백질로 발현됩니다.
이렇게 엄청난 작업 부하라면 섬세한 인체라도 완벽한 오류를 내는 것은 어려울 것입니다.조심하지 않으면 염기쌍이 잘못 정렬되어 유전자 돌연변이가 발생할 수 있으며, 시간이 지나면서 암이 발생할 수도 있습니다.
미스센스 돌연변이는 유전자 돌연변이의 흔한 형태입니다.DNA의 염기 돌연변이로 인해 번역된 아미노산이 변하고, 궁극적으로는 단백질 전체 기능이 파괴되는 결과를 낳습니다.

그림 1: 미스센스 돌연변이의 개략도.DNA의 아데닌 뉴클레오티드가 구아닌 뉴클레오티드로 돌연변이됨으로 인해,글루타민에서 세린으로 전환되는 아미노산
현재 인간에서는 400만 개 이상의 미스센스 돌연변이가 관찰되었지만, 2%의 미스센스 돌연변이만이 병원성 돌연변이 또는 양성 돌연변이로 분류될 수 있습니다.
미스센스 돌연변이의 영향을 정확하게 예측하면 희귀 질병에 대한 이해를 심화하고 잠재적인 유전병을 예방하고 치료할 수 있습니다.MAVE(Multiplex Analysis of Variation Effects)를 통해 단백질 돌연변이를 체계적으로 분석하고 임상적 효과를 정확하게 예측할 수 있지만,하지만 이 방법은 많은 인력과 물적 자원이 필요합니다.가능한 모든 미스센스 돌연변이에 대한 포괄적인 분석을 수행하는 것은 어렵습니다.
이를 위해 DeepMind는 AlphaFold를 통해 단백질의 전반적인 구조를 분석했습니다.우리는 약한 레이블 학습과 비지도 학습을 결합하여 AlphaMissense를 개발했습니다.미스센스 돌연변이의 결과는 체계적으로 분석되었습니다. AlphaMissense는 ClinVar 데이터 세트를 사용하여 검증되었습니다.예측 정확도는 90%에 도달했습니다.
그 다음에,AlphaMissense는 인간에서 7,100만 개의 미스센스 돌연변이가 발생할 수 있다고 예측합니다.그 중 32%는 병원성 돌연변이일 수 있고 57%는 양성 돌연변이일 수 있습니다.이러한 결과는 분자생물학, 유전체학, 임상의학 등의 학문 발전에 큰 도움이 될 것입니다.이 결과는 "Science"에 게재되었습니다.

그림 2: 7,100만 개의 미스센스 돌연변이에 대한 AlphaMissense의 예측 결과(위)와 현재 인간이 관찰하고 확인한 결과(아래)

관련 결과는 "Science"에 게재되었습니다.
논문 링크:
https://www.science.org/doi/10.1126/science.adg7492
실험 절차
알파미센스:AlphaFold + 미세 조정
AlphaMissense에 아미노산 서열을 입력하면 서열의 아미노산 변화에 따른 병원성을 예측합니다. AlphaMissense의 구현은 AlphaFold와 매우 유사하며, 아키텍처에 약간의 조정만 있었습니다.

그림 3: AlphaMissense 구조도
AlphaMissense의 훈련 데이터는 다양한 출처에서 나오지만, 주로 인간과 비인간 영장류로부터 나옵니다.그 중 인간에서 유래한 양성 미스센스 돌연변이는 1,248,533개이고, 아직 관찰되지는 않았지만 발생할 가능성이 있는 돌연변이는 65,314,044개에서 병원성 미스센스 돌연변이가 추출됩니다.
AlphaMissense의 훈련은 두 단계로 구성됩니다. 첫째, AlphaFold와 마찬가지로 AlphaMissense도 다중 시퀀스 정렬에서 무작위로 마스크된 아미노산을 예측해야 합니다.그런 다음 단일 사슬 단백질의 구조를 예측하고 단백질 언어 모델링을 수행합니다.
그 다음에,연구자들은 인간의 단백질을 사용하여 AlphaMissense를 미세하게 조정했습니다.그리고 모델의 출력 목표는 미스센스 돌연변이의 병원성으로 설정되었습니다.
관찰되지 않은 미스센스 돌연변이 중에는 양성 돌연변이가 상당수 있지만, 학습 과정에서는 병원성 돌연변이로 분류되므로 AlphaMissense 학습 세트는 매우 노이즈가 많습니다.연구자들은 훈련 세트의 양과 질을 개선하기 위해 자체 증류를 사용하여 데이터를 필터링했습니다.
임상 데이터 검증:다양한 데이터 세트에서의 성능
훈련이 완료된 후,AlphaMissense는 주석이 달린 임상 데이터(ClinVar 데이터 세트), 희귀 발달 장애가 있는 환자의 신규 변이체, ProteinGym의 MAVE 결과를 사용하여 검증되었습니다.
먼저, 연구진은 ClinVar 데이터 세트에서 AlphaMissense의 성능을 평가했습니다. 18,924개의 돌연변이 부위를 분석한 후,AlphaMissense의 auROC는 0.940으로, 이는 이전 최첨단 진화 모델(EVE)(0.911)보다 개선된 수치입니다.
임상적으로 미스센스 돌연변이를 평가할 때 일반적으로 특정 질병과 관련된 유전자에 초점을 맞춥니다. 따라서 이들 유전자에서 양성 및 병원성 미스센스 돌연변이를 구별하는 것이 특히 중요합니다. 연구진은 AlphaMissense를 사용하여 ClinVar의 612개 유전자를 분석했습니다.auROC는 0.950으로 EVE의 0.921보다 좋습니다.
마지막으로 연구진은 발달 장애 해독(DDD) 데이터 세트에서 AlphaMissense의 예측 결과를 분석했습니다. AlphaMissense의 auROC는 0.809로, PrimateAI의 0.797과 비슷합니다.

그림 4: 다양한 데이터 세트에서 AlphaMissense와 다른 모델의 성능 비교
A: ClinVar의 돌연변이 부위 분석;
B: ClinVar의 유전자 분석
C: DDD 데이터 세트 분석.
동시에 AlphaMissense의 암 핫스팟, ACMG(미국 의과유전학회) 및 기타 MAVE 데이터에 대한 예측 결과는 다른 모델보다 더 좋습니다.위의 결과는 AlphaMissense가 여러 데이터 세트에서 기존 모델보다 우수한 성능을 보인다는 것을 보여줍니다.
전반적인 예측 성능:단백질 돌연변이 추세 반영
AlphaMissense를 임상 데이터로 검증한 후,연구진은 AlphaMissense를 사용하여 인간의 19,233개 일반 단백질에서 2억 1,600만 개의 아미노산에 대한 가능한 돌연변이를 예측했고, 최종적으로 7,100만 개의 미스센스 돌연변이에 대한 예측을 얻었습니다.
AlphaMissense의 병원성 예측 결과는 0과 1 사이이며, 1에 가까울수록 병원성 가능성이 높아집니다. 대부분의 예측은 0과 1에 가깝기 때문에 0.2와 0.8 사이의 값은 정확도가 떨어질 가능성이 높습니다. 궁극적으로 그들은 예측을 세 가지 범주로 분류했습니다.병원성이 있을 수도 있고, 양성일 수도 있으며, 아직 확실하지 않습니다.
AlphaMissense의 전반적인 예측 성능을 평가하기 위해 연구진은 모든 단백질에 대한 개별 아미노산의 병원성을 계산했습니다. 결과는 다음과 같습니다방향족 아미노산과 시스테인의 돌연변이는 질병을 일으킬 가능성이 더 높은데, 이는 실제 결과와 일치합니다.이 두 아미노산은 단백질의 구조를 유지하는 데 역할을 하기 때문입니다.

그림 5: AlphaMissense 예측 결과 히트 맵,색상 블록은 프로테옴의 2억 1,600만 아미노산 변화의 평균 병원성을 나타냅니다.
AlphaMissense의 예측 결과와 AlphaFold가 예측한 단백질 구조를 시각화하면, 이들 단백질의 돌연변이 추세를 확인할 수 있습니다.예를 들어, 단백질 구조가 불규칙한 영역은 양성 돌연변이가 발생하는 영역에 해당하며, 이는 프로테오믹스의 예측 결과와 일치합니다.

그림 6: ACMG 및 MAVE 데이터 세트의 일부 단백질 시각화 결과
왼쪽은 AlphaMissense가 예측한 병원성을 보여줍니다. 질병을 일으킬 수 있는 미스센스 돌연변이는 빨간색으로 표시되고, 양성일 수 있는 미스센스 돌연변이는 파란색으로 표시되며, ClinVar 데이터 세트에 포함된 돌연변이는 실선 원으로 표시됩니다. 오른쪽은 AlphaFold가 예측한 단백질 구조입니다. 다양한 색상은 AlphaMissense에 해당하는 이 지역의 돌연변이 병원성을 나타냅니다.
예측 정확도:MAVE 결과와의 일관성
AlphaMissense와 MAVE 결과의 일관성을 조사하기 위해 연구진은 AlphaMissense를 사용하여 두 세트의 MAVE 데이터를 분석했습니다.다른 예측 방법과 비교했을 때 AlphaMissense는 MAVE 데이터에 가장 가깝습니다.

그림 7: MAVE 예측 결과를 포함한 AlphaMissense 및 기타 모델의 Spearman 상관 계수,그 중에서도 AlphaMissense가 가장 좋은 결과를 보였습니다.
그런 다음 그들은 AlphaMissense의 예측 데이터를 실험을 통해 검증된 미스센스 돌연변이의 병원성과 비교했습니다. SHOC2 단백질은 MRAS 및 PP1C 단백질과 복합체를 형성하여 Ras-MAPK 암 경로를 활성화할 수 있습니다. AlphaMissense와 MAVE는 이 돌연변이와 Ras 암세포 사이의 상관관계를 예측했습니다.획득된 스피어만 상관계수는 0.47로 다른 모델보다 우수합니다. (ESM1v: 0.41, ESM1b: 0.40, EVE: 0.32).

그림 8: MAVE 데이터 세트의 미스센스 돌연변이에 대한 다양한 모델의 예측 결과
또한 연구진은 SHOC2 단백질의 다양한 영역에서 아미노산 미스센스 돌연변이의 병원성에 대한 AlphaMissense의 예측 결과를 탐구했습니다. MAVE는 SHOC2의 처음 80개 아미노산 중 63~74번 아미노산의 돌연변이가 병원성을 갖는 것으로 예측했습니다. 그 이유는 이 영역이 RVxF를 통해 PP1C 단백질에 결합하기 때문입니다. AlphaMissense는 이 중요한 영역을 식별하는 유일한 모델입니다.

그림 9: SHOC2 단백질에 대한 AlphaMissense 예측 결과
A: SHOC2 단백질의 첫 200개 아미노산 돌연변이의 병원성에 대한 다양한 모델의 예측 결과. 위에서 아래로 실제 상황(MAVE), AlphaMissense, EVE가 있습니다.
B: SHOC2 단백질(빨간색과 파란색)과 MRAS(노란색) 및 PP1C(금색) 단백질로 구성된 복합체의 구조도.
게다가 AlphaMissense는 다양한 유형의 아미노산 미스센스 돌연변이의 결과를 반영할 수 있습니다.SHOC2 단백질의 경우 AlphaMissense의 예측 결과가 실제 결과에 가장 가깝습니다.

그림 10: SHOC2 및 MAVE 결과에서 아미노산 돌연변이의 병원성 예측을 위한 다양한 모델 간의 상관 관계
위의 결과는 AlphaMissense의 예측 결과가 MAVE의 예측 결과와 비슷하며 유전자 미스센스 돌연변이의 결과를 정확하게 예측할 수 있음을 전체적으로 보여줍니다.
마지막으로, Deepmind는 모델과 예측 결과를 커뮤니티에 오픈 소스로 공개하여 이러한 결론이 다른 분야의 연구에 도움이 되기를 바랐습니다.
모델 링크:
https://github.com/deepmind/alphamissense
유전자 돌연변이: 손이 닿지 않지만 항상 존재한다
유전자 돌연변이라고 하면 우리는 쉽게 엑스선, 핵방사선, 아질산염, 영화 레지던트 이블과 헐크의 장면 등 위험한 요소를 떠올리고, 이런 것들은 우리와 너무 멀리 떨어져 있다고 느낍니다. 우리가 일상생활에서 노출되는 방사선은 매우 적은 것이 사실입니다.하지만 유전자 돌연변이는 우리 삶의 매 순간 일어나고 실제로 우리 삶을 변화시킵니다.
우리는 살아가면서 불가피하게 방사선에 노출됩니다.햇빛과 같은 것. 햇빛에 포함된 방사선은 발암 요인 중 하나인 자외선에서 나옵니다. 따라서 장기간 햇빛에 노출되면 피부암 위험이 높아집니다.
방사선원에 노출되지 않더라도,DNA는 복제, 전사, 번역 과정에서 필연적으로 실수를 하며, 이로 인해 유전자 돌연변이가 발생합니다.하지만 이러한 돌연변이는 양성일 수도 있고 시간이 지나면서 면역 메커니즘에 의해 제거될 수도 있습니다.
하지만 동시에 유전자 돌연변이는 우리 삶에 편리함을 제공하기도 합니다.특히 농업 생산에서. 작물 돌연변이는 작물 수확량을 늘리고, 작물의 소금과 알칼리에 대한 내성을 개선하며, 심지어 해충을 방제하는 데에도 도움이 될 수 있습니다. 이러한 돌연변이체를 개량하고 선별하면 이러한 우수한 특성을 그대로 유지할 수 있어 식량 생산량을 늘릴 수 있습니다.

그림 11: 옥수수 돌연변이체의 다양한 종류
그러나 인간의 유전자 돌연변이에는 가능성이 너무 많으며, 우리가 현재 알고 있는 것은 바다 한 방울에 불과합니다. AlphaMissense를 사용하면 유전자 돌연변이의 결과에 대해 비교적 신뢰할 수 있는 예측을 내리고 이를 추론할 수 있습니다.어쩌면 우리는 유전 질환과 희귀 질환의 메커니즘을 찾아내고 질병 예방 및 치료를 위한 새로운 방법을 제공할 수 있을지도 모릅니다.
동시에 AlphaMissense는 다른 분야의 연구를 위한 자료도 제공합니다. 아마도 곧 AlphaMissense가 다른 종의 유전자 돌연변이를 해석하는 모습을 볼 수 있을 것입니다.그러면 우리는 유전자 돌연변이를 합리적으로 활용할 수 있고, 유전공학을 통해 우리 삶에 더 많은 혜택을 가져다줄 수 있습니다.
참조 링크:
[1]https://www.science.org/doi/10.1126/science.abj6987
[2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/
본 기사는 HyperAI WeChat 공개 플랫폼에 처음 게재되었습니다.~