Nature 저널에 게재되었습니다! 베이징대 연구팀은 AI를 활용해 코로나19/에이즈/인플루엔자 바이러스의 진화 방향을 예측, 정확도 67% 향상

2019년 12월, COVID-19 팬데믹이 갑자기 발생했습니다. SARS-CoV-2 바이러스로 인해 발생하는 이 질병은 전염성이 매우 강합니다. 단 한 달 만에 우리나라의 확진자 수가 1,000명을 넘어섰고, 금세 전 세계로 확산되었습니다.
바이러스의 추가 확산을 막기 위해 우리나라는 2021년 초에 전 국민 무료 예방접종 정책을 시작했습니다. 그러나 백신 지원에도 불구하고 건강 위기는 점점 더 복잡해졌습니다.이는 SARS-CoV-2 바이러스가 계속해서 돌연변이를 일으키기 때문입니다.원래 우한에서 발견된 "바이러스 균주"는 백신과 변화하는 환경 조건으로 인한 면역 압력에 점차 적응하면서 이미 오래전에 사라졌고, 다양한 돌연변이 균주로 대체되어 새로운 감염 물결을 계속 일으키고 있으며, 그 영향은 2023년 이후까지 지속될 것입니다.
우연히도 최근 인플루엔자 바이러스 양성률이 지속적으로 증가하고 있으며, 많은 사람들이 자신도 모르게 인플루엔자 A(A19)에 감염되었습니다. SARS-CoV-2 바이러스와 유사하게 A19 역시 전염성이 매우 강하고, 빠르게 퍼지며, 빠르게 돌연변이합니다. 같은 계절에 여러 종류의 바이러스가 나타날 수 있으며, 이로 인해 짧은 기간 내에 인구 전체가 반복적으로 감염될 위험이 커집니다.
이는 바이러스 진화 방향을 예측하는 것이 예방 및 통제, 백신 및 약물 설계에 매우 중요하다는 것을 보여줍니다.그러나 바이러스 진화의 기본이 되는 돌연변이는 매우 무작위적이기 때문에 일반적으로 매우 적은 수의 돌연변이만이 바이러스의 적응력을 "단지" 증가시킬 수 있습니다. 양성 샘플(유익한 돌연변이)과 음성 샘플(유해한 돌연변이) 간의 불균형으로 인해 바이러스의 희귀한 유익한 돌연변이를 예측할 수 있는 딥 러닝 모델을 훈련하는 것이 매우 어렵습니다. 동시에 바이러스는 종종 몇몇 부위에서만 돌연변이를 일으키기 때문에, 돌연변이로 인해 발생하는 분자 내 상호작용의 약한 변화를 신경망이 직접 포착하기 어렵고, 모델링에도 문제를 일으킵니다.
이와 관련하여, 베이징대학교 정보공학과의 티안 용홍 교수와 천지에 부교수는 광저우국가실험실의 주펑 연구원과 함께 박사과정생 니에 지웨이와 석사과정생 류쉬둥을 지도하여 바이러스 진화 예측 문제를 재검토하고, 진화 기반 바이러스 돌연변이 원동력 예측 프레임워크인 E2VD를 제안했습니다.이 프레임워크는 SARS-CoV-2 바이러스, 인플루엔자 바이러스, 지카 바이러스 및 HIV(AIDS 바이러스)의 진화 방향을 예측하여 새로운 바이러스 감염에 대한 인간의 대응 속도를 크게 향상시키고 백신과 약물의 신속한 최적화에 중요한 지원을 제공할 수 있습니다.
해당 연구는 "바이러스 변이 원인 예측을 위한 통합 진화 기반 딥 러닝 프레임워크"라는 제목으로 2025년 1월 17일 Nature Machine Intelligence에 게재되었습니다.

서류 주소:
https://www.nature.com/articles/s42256-024-00966-9
논문 주소: 공식 계정을 팔로우하고 "Viral Evolution"에 답글을 달면 전체 PDF를 받을 수 있습니다.
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: UniRef90 사전 학습 데이터 세트 및 바이러스 심층 돌연변이 스캐닝 데이터 세트
바이러스는 끊임없이 새로운 돌연변이를 일으키고, 진화 과정에서 이를 선택적으로 축적합니다. 따라서 진화 시나리오에 대한 단백질 언어 모델은 강력한 제로 샘플 일반화 기능을 가져야 합니다. 즉, 보이지 않는 돌연변이를 처리할 수 있어야 합니다. 이를 달성하기 위해,연구팀은 단백질 언어 모델의 사전 학습을 위한 데이터 세트로 UniRef90을 선택했습니다. UniRef90은 모델 학습 초기 단계의 성능에 부정적인 영향을 주지 않으면서 풍부한 시퀀스 수준의 진화 정보를 담고 있습니다. 이러한 풍부한 진화 정보 덕분에 모델은 사전 훈련 중에 충분한 단백질 계열 서열 샘플에 노출될 수 있고, 이를 통해 제로 샘플 일반화 능력이 향상됩니다.
또한, 바이러스 돌연변이로 인한 진화적 적합도 지형을 학습하는 모델을 지원하기 위해,연구팀은 다양한 바이러스의 오픈 소스 심층 돌연변이 스캐닝 데이터 세트를 사용했습니다.
모델 아키텍처: 진화에서 영감을 받은 보편적 건축 디자인
연구팀은 "약한 돌연변이 증폭"과 "희귀한 유익한 돌연변이 채굴"의 설계를 바탕으로 진화 기반 바이러스 돌연변이 원동력 예측 프레임워크인 E2VD를 제안했습니다. 아래 그림 a에서 보는 바와 같이,주로 3개의 모듈로 구성됩니다.여기에는 단백질 서열 인코딩, 로컬-글로벌 의존성 결합, 멀티태스크 초점 학습이 있습니다.

* 첫 번째,연구팀은 단백질 서열 코딩 모듈에서 바이러스 진화를 위한 맞춤형 단백질 언어 모델을 독립적으로 훈련시켰으며, 이를 통해 바이러스 단백질 서열의 특징을 정확하게 추출할 수 있었습니다.
* 둘째,연구진은 국소-전역 상호작용 의존성 융합 모듈에서 합성 신경망(CNN)을 사용하여 돌연변이와 인접 아미노산 간의 상호작용 의존성을 파악하고, 돌연변이가 위치한 모티프 수준에서 장거리 상호작용 의존성 네트워크를 구축하기 위한 학습 가능한 동적 주의 메커니즘을 설계했습니다. 이 설계는 변종 전체에서 돌연변이가 적어서 나타나는 약한 효과를 포착하기 어렵다는 문제를 효과적으로 해결합니다.
* 그 다음에,멀티태스크 집중 학습 모듈에서는 멀티태스크 학습의 장점과 어려운 샘플 마이닝 전략을 결합하여 멀티태스크 훈련의 매개변수 공유를 통해 바이러스 돌연변이 적합도에 대한 모델의 예측 성능을 개선합니다.

더 중요한 점은 위의 그림 b에서 볼 수 있듯이, 이 팀은 새로운 다중 작업 초점 손실 함수를 설계했는데, 이는 모델이 훈련 중에 효과적으로 학습하기 어려운 희귀한 유익한 돌연변이에 더 많은 주의를 기울이도록 유도하여 희귀한 유익한 돌연변이(즉, 학습하기 어려운 샘플)에 대한 예측 성능을 크게 향상시켰습니다.

또한, 위 그림 c에 표시된 것처럼 E2VD 예측 프레임워크는 다양한 바이러스 적합도 예측 작업에 대한 입력과 출력을 유연하게 조정할 수 있습니다. 예를 들어, 돌연변이로 인한 결합 친화도의 변화를 예측하려면 바이러스 시퀀스만 입력하면 됩니다. 돌연변이로 인한 항체 회피 능력의 변화를 예측하기 위해 바이러스 서열과 항체 서열을 모두 입력하는 등의 방법을 통해 통합 아키텍처에서 여러 바이러스 유형과 균주에 대한 고정밀 진화 예측을 달성할 수 있습니다.
구체적으로 이 연구에서는 E2VD 프레임워크를 SARS-CoV-2 바이러스, 인플루엔자(인플루엔자 바이러스), 지카(지카 바이러스) 및 HIV(AIDS 바이러스)와 관련된 예측 작업에 사용했습니다.
* SARS-CoV-2의 과제에는 바이러스 돌연변이의 주요 요인인 결합 친화력, 발현 및 항체 탈출을 예측하는 것이 포함됩니다.
* 인플루엔자, 지카, HIV 바이러스에 대한 과제는 모델의 일반화 능력을 분석하기 위해 돌연변이로 인한 적합도 효과를 예측하는 것입니다.
실험 결과: E2VD는 67%의 유익한 돌연변이 예측 정확도를 향상시키고 우수한 일반화 성능을 보입니다.
E2VD는 바이러스 진화 패턴을 정확하게 포착하고 67%에 의한 유익한 돌연변이 예측의 정확도를 향상시킬 수 있습니다.
연구팀은 진화적 시나리오에 맞춰 개발된 맞춤형 단백질 언어의 예측 성능을 주류 단백질 언어 모델의 예측 성능과 비교했습니다. 연구진이 개발한 맞춤형 단백질 언어 모델은 최소 3억 4천만 개의 모델 매개변수로 가장 우수한 예측 성능을 달성했으며, 매개변수 수가 44배 더 많은 ESM2-15B보다 더 우수한 성능을 보였습니다. 이는 맞춤형 사전 학습 데이터 세트와 학습 전략의 효과를 입증합니다.
이후 연구팀은 다양한 핵심 바이러스 진화적 원동력 예측 작업에서 E2VD를 주류 방법과 비교했습니다. 결과에 따르면 E2VD는 다른 방법을 크게 능가했으며, 성능 향상 범위는 7%에서 21%에 달했습니다. 또한 연구진은 E2VD가 바이러스 진화 패턴을 정확하게 포착하고, 다양한 유형의 돌연변이를 정확하게 구별하고, 드물게 유익한 돌연변이를 정확하게 찾아내는 능력을 보여주기 위해 여러 가지 실험을 수행했습니다.

a: MT가 없다는 것은 MT 모듈이 없는 E2VD를 의미합니다. LG가 없다는 것은 LG 모듈이 없는 E2VD를 의미합니다. MT&LG가 없다는 것은 MT&LG 모듈이 없는 E2VD를 의미합니다.
b: 결합 친화도 예측 작업에 설명된 위험 수준을 갖는 세 가지 돌연변이 유형
d: 희귀한 유익한 돌연변이를 포착하는 다양한 손실의 능력
첫째, 모듈 절제 연구를 수행하여 로컬-글로벌 상호작용 종속성 융합(LG) 모듈과 멀티태스크 초점 학습(MT) 모듈이 예측 성능에 미치는 기여도를 알아봅니다. 위의 그림 a에서 보듯이, 이 연구에서는 MT 모듈이 바이러스 적합도에서 희귀한 유익한 돌연변이를 찾아내는 데 효과적이라는 것을 발견했습니다(재현율은 0에서 69.63%로 증가했습니다). LG 모듈을 MT 모듈과 결합하면 정확도 91.11%, 재현율 96.3%, 상관 계수 0.87로 모델 성능을 더욱 향상시킬 수 있습니다.
이 팀이 제안한 멀티태스크 초점 손실 함수는 예측 성능을 크게 향상시킬 수 있습니다. 연구자들은 다중 작업 초점 손실이 희귀한 유익한 돌연변이를 포착하는 능력을 평가하기 위해 대표적인 유익한 돌연변이와 유해한 돌연변이를 선택하여 테스트 세트를 구성했습니다.
* 유익한 돌연변이의 예측 측면에서 위 그림 d에서 보듯이 E2VD는 희귀한 유익한 돌연변이의 예측 정확도를 13%에서 80%로 향상시켜 정확도를 획기적으로 개선하고, 바이러스 진화에 필수적인 희귀한 유익한 돌연변이를 정확하고 효율적으로 발굴합니다.
* 유해한 돌연변이의 경우, 멀티태스크 초점 손실과 기존 BCE&MSE가 비슷한 성과를 보입니다. BCE&MSE는 모델이 희귀한 유익한 돌연변이를 학습하는 데 도움을 줄 수 없기 때문에 모델이 모든 돌연변이를 유해한 돌연변이로 예측하는 경향이 있습니다.
아래 그림 b에서 볼 수 있듯이, 연구진은 주성분 분석(PCA)을 사용하여 인플루엔자, 지카, HIV의 세 가지 유형의 돌연변이의 차원 감소를 시각화했습니다. 결과는 LG 모듈로 처리한 후, 다양한 돌연변이의 특성이 명확한 경계를 가지고 명확하게 구분된다는 것을 보여주었습니다. 이는 LG가 분자 내 상호작용 네트워크를 포착하고 재구성하여 다양한 돌연변이 유형에 대한 E2VD의 민감도를 높이고, 이를 통해 바이러스의 진화적 적응성에 대한 더 나은 이해를 제공할 수 있음을 시사합니다.

E2VD는 뛰어난 일반화 성능을 가지고 있으며 바이러스 유형 및 균주에 대한 예측을 할 수 있습니다.
바이러스는 선택 압력 하에서 계속 진화하며, 이로 인해 여러 종류의 바이러스가 출현할 수 있습니다. 예를 들어, 최근 많은 주목을 받고 있는 인플루엔자 바이러스는 여러 유형을 포함하고 있으며 계절적 돌연변이를 보입니다. 따라서 복잡한 바이러스 진화 추세에 대처하기 위해서는 모델의 일반화 능력이 매우 중요합니다. 연구진은 동일한 바이러스의 여러 균주와 여러 유형의 바이러스를 예측하는 모델의 일반화 능력을 평가하기 위해 "서수 쌍 비율"(OPP)을 제안했습니다.
* OPP는 모든 돌연변이 쌍 중에서 정확하게 예측된 돌연변이 쌍의 비율을 나타냅니다. OPP 값이 클수록 예측된 적응적 환경이 덜 혼란스러워지며, 이는 해당 모델이 바이러스 돌연변이 유발 요인의 상대적 순서를 예측하는 능력이 더 뛰어나다는 것을 나타냅니다.
아래 그림 b에 표시된 것처럼 교차 균주 결합 친화도 예측 작업의 경우, 연구진은 6가지 다른 균주의 OPP와 모든 균주 혼합 데이터(All)를 평가한 결과, E2VD가 모든 경우에서 다른 방법보다 상당히 우수한 성능을 보였다는 것을 발견했습니다. 아래 그림 c에 표시된 것처럼 E2VD는 대부분의 균주에 대한 발현 수준 예측 작업에서 다른 방법보다 우수한 성과를 보입니다. 전반적으로 E2VD는 분포 범위를 벗어난 균주에 대해 최첨단 방법을 전반적으로 능가하여 매우 일반화 가능한 성능을 보여줍니다.

* b, c: E2VD는 다양한 바이러스 균주의 OPP를 예측합니다. d, e, f: E2VD는 다양한 유형의 바이러스 성능을 예측합니다.
위의 그림 d, e, f에서 볼 수 있듯이, 교차 바이러스 유형 예측에서 연구진은 E2VD가 신종 코로나바이러스, 지카 바이러스, 인플루엔자 바이러스, HIV에 대해 이상적인 일반화 역량을 보였으며, 다른 방법을 전반적으로 능가하는 것으로 나타났으며, 앞으로 더 전염성이 강한 바이러스로 확장될 가능성이 있음을 발견했습니다.
AI는 바이러스 진화를 예측하는 데 큰 잠재력을 가지고 있습니다.
위 연구는 바이러스 진화 예측 문제를 진화의 관점에서 다시 탐구하고, 다양한 바이러스 유형과 균주에 적합한 보편적인 진화 예측 프레임워크 E2VD를 구축했습니다. 이 프레임워크는 다양한 바이러스 돌연변이 유발 요인 예측 작업에서 뛰어난 예측 성능과 일반화 능력을 보여 바이러스 진화 추세를 예측하는 것이 가능해졌습니다.더욱이 E2VD의 유연하고 맞춤화된 조합을 통해 다양한 규모에서 진화 추세를 예측할 수도 있습니다.
* 첫째, E2VD는 팬데믹 동안 바이러스 진화 경로를 설명하여 특정 균주가 유행하는 이유와 이를 뒷받침하는 분자적 메커니즘을 이해하는 데 도움이 됩니다.
* 둘째, E2VD는 가상 심층 돌연변이 스캐닝 시뮬레이션과 결합하여 위험도가 높은 돌연변이를 예측할 수 있으며 80%의 적중률을 달성합니다.
* 마지막으로, E2VD는 전염병 규모의 거시진화 궤적 예측도 달성하여 현실 세계에서 바이러스의 진화 경로를 재현함으로써 바이러스 진화 메커니즘을 해석하는 데 이론적 근거를 제공합니다.
앞으로 연구팀은 E2VD를 백신 및 단백질 약물 설계 프로세스와 결합하여 설계의 효율성과 제어성을 개선할 계획입니다. 이는 바이러스 예방 및 통제와 약물 설계에 큰 의미를 가질 것입니다.
이 연구의 저자는 베이징대학교 정보공학과의 티앤 용홍 교수와 천지에 부교수, 그리고 그들의 박사과정생 니에 지웨이와 석사과정생 류쉬둥입니다. 이 팀은 생명과학을 위한 AI 분야 연구에 계속해서 집중하고 있습니다. 이들의 프로젝트 "바이러스의 진화에 앞서 - 인공지능 시뮬레이션을 통한 미래의 고위험 코로나바이러스 변종 예측"은 2022년 11월 2022년 "고든 벨 뉴 크라운 특별상" 후보로 선정되었습니다(고든 벨상은 고성능 컴퓨팅 애플리케이션 분야에서 세계 최고의 학술상입니다).
이 팀은 바이러스 진화 예측 분야에서 심도 있는 경험을 가지고 있습니다. 2023년 7월, 연구팀은 "진화보다 앞서 나아가기—미래의 고위험 SARS-CoV-2 변종을 예측하기 위한 AI 기반 시뮬레이션"이라는 제목의 논문을 The International Journal of High Performance Computing Applications에 발표했습니다. 구체적으로, 연구진은 대규모 단백질 언어 모델을 사전 훈련시키고 결합 친화도와 항체 탈출 예측을 기반으로 고처리량 스크리닝 방법을 구축했습니다. 이번 연구는 SARS-CoV-2 RBD 돌연변이 시뮬레이션에 대한 첫 번째 연구입니다. 이 모델은 우려되는 5가지 변종의 RBD 영역에서 돌연변이를 성공적으로 식별하고 몇 초 만에 수백만 개의 잠재적 변종을 걸러내어 "AI+HPC"(인공지능+고성능 컴퓨팅) 패러다임의 형태로 전염병 예방 및 통제를 위한 기술적 수단을 제공했습니다.
논문 링크:
https://journals.sagepub.com/doi/abs/10.1177/10943420231188077
또한, 이 팀은 생명과학을 위한 일련의 기본 모델을 개발했습니다. 효소 공학에 필수적인 "효소-기질" 상호작용 예측 작업을 예로 들면서, 연구팀은 2024년 12월에 사전 인쇄 논문을 발표하여 다목적 효소-기질 상호작용 예측을 위한 진보적 조건부 딥 러닝 프레임워크 MESI를 제안했습니다.
논문 링크:
https://www.researchsquare.com/article/rs-5516445/v1
구체적으로, 효소-기질 상호작용의 모델링을 2단계 학습 과정으로 분리함으로써, 효소 반응 특이성과 주요 촉매 상호작용 정보를 각각 도입하도록 두 개의 조건부 네트워크를 설계하여, 단백질과 소분자의 일반 영역에서 촉매 인식 영역으로 특징적 잠재 공간의 점진적인 전환을 용이하게 합니다. 이 모델은 다양한 다운스트림 작업에서 최첨단 방법보다 지속적으로 우수한 성능을 보입니다. 더욱이 제안된 조건부 네트워크는 무시할 수 있는 추가 계산 오버헤드로 효소 촉매 작용의 필수 모드를 암묵적으로 포착합니다. 이러한 조건부 감지 메커니즘의 지원을 받는 이 모델은 구조적 정보가 전혀 필요 없이 효율적이고 저렴한 방식으로 핵심 촉매 상호작용에 관련된 활성 부위를 정확하게 식별하고 효소 잔류물과 기질 기능 그룹을 탐색할 수 있습니다.
인공지능의 도움으로 연구팀은 생명과학을 위한 AI 관련 분야의 심층 연구를 더욱 촉진하고, 바이러스 예측, 단백질 약물 설계, 백신 개발 등에 더 많은 가능성을 열어갈 것입니다. 앞으로도 이들의 성과가 더욱 기대됩니다.
참고문헌:
https://www.who.int/
https://news.pku.edu.cn/jxky/90d276ae5f8441849fd04372fd872154.htm
https://news.pkusz.edu.cn/info/1003/8711.htm
