백신 연구 및 개발의 새로운 돌파구: Beihang 팀은 바이러스 항원 면역원성을 예측하는 새로운 방법인 VirusImmu를 제안합니다.

감염병은 인간의 건강과 생명을 심각하게 위협하는 주요 질병입니다. 지금까지 발견된 4,000개가 넘는 바이러스 중 100개 이상이 인간의 건강과 생명을 직접적으로 위협할 수 있습니다. 더욱 무서운 것은 새로운 병원균이 끊임없이 발견되고 있다는 것입니다. 언론보도에 따르면, 지난 20년간 전 세계에서 발견된 32종의 신종 전염병 중 절반 정도가 우리나라에서 발견됐습니다.
그러므로 백신의 개발은 특히 중요합니다. 백신 개발의 긴 과정에서 가장 먼저 해야 할 일은 보호 면역원을 찾아내는 것입니다. 머신 러닝(ML) 방법은 미생물 프로테옴과 같은 빅데이터를 분석하는 데 매우 효율적이며, 새로운 백신 후보를 개발하는 데 드는 실험 작업 비용을 크게 줄일 수 있습니다.
베이항 대학의 리징(Li Jing)과 다른 연구자들은 바이러스 항원의 면역원성을 예측하기 위한 머신 러닝 앙상블 방법(Viruslmmu)을 개발했는데, 이는 바이러스 단백질 조각의 면역원성을 예측하는 데 큰 잠재력을 보여주었고 백신 개발자들에게 보다 포괄적인 도구를 제공했습니다. 관련 내용은 bioRxiv에 게시되었습니다.

서류 주소:
https://www.biorxiv.org/content/10.1101/2023.11.23.568426v1
공식 계정을 팔로우하고 "면역"이라고 답글을 달면 논문을 다운로드할 수 있습니다.
데이터 세트: 훈련 및 테스트에 관련된 수백 개의 항원
훈련 및 테스트 데이터 세트는 100개의 항원(양성 세트)과 100개의 비항원(음성 세트)으로 구성되었습니다.
데이터세트 다운로드 주소:
https://github.com/zhangjbig/VirusImmu/tree/main/data

보호 항원은 문헌에서 검토된 검증된 단백질 항원입니다. 해당 단백질 서열은 UniProt(Universal Protein)과 NCBI(National Center for Biotechnology Information)에서 가져왔습니다. 완전한 단편으로 구성된 단백질이 선호됩니다.
참고사항: UniProt은 가장 풍부한 정보와 리소스를 보유한 단백질 데이터베이스입니다.
보호되지 않은 단백질 서열(비항원성)은 바이러스 생물정보학 자원 센터에서 무작위로 선택되었습니다.
연구진은 BLAST(Basic Local Alignment Search Tool)를 사용하여 비항원이 항원과 서열 동일성이 없음을 확인하고, 무작위 표본 추출 교차 검증 전략을 채택하여 20%의 양성 및 음성 데이터 세트에서 테스트 세트를 얻었습니다. 50개의 무작위화가 수행되었습니다.
참고: BLAST는 생물학적 거대 분자 서열 비교 검색 도구입니다.
외부 데이터 세트는 연구자들이 독립적으로 구성했으며 항원 59개와 비항원 54개로 구성되었습니다. 항원 시퀀스는 UniProt 및 Protegen 데이터베이스에서 수동으로 수집했고, 비항원 시퀀스는 동일한 학습 방법을 통해 UniProt에서 무작위로 선택했습니다.
최고의 앙상블 모델 구축 VirusImmu
지난 10년 동안 단백질 항원의 면역원성을 예측하는 방법은 필터링과 분류라는 두 가지 주요 범주로 나뉘었습니다. 분류 예측을 위한 가장 대표적인 방법은 VaxiJen으로, 보호 박테리아 항원을 예측하는 방법을 제안합니다.
하지만 VaxiJen은 박테리아 면역원성의 예측에 초점을 맞춥니다. VaxiJen의 한계를 극복하기 위해, 베이항대학교의 연구진은 바이러스 면역원성을 예측하기 위한 통합 머신 러닝 방법인 VirusImmu를 제안했습니다.
단일한 기존 회귀 알고리즘을 사용하거나 단순히 다수결 투표에 기반하는 VaxiJen과 달리 VirusImmu는 무작위 표본 추출 교차 검증 전략을 통해 항원 면역원성을 예측하는 8가지 머신 러닝 모델의 성능을 평가하기 위해 소프트 투표 방식을 채택합니다.
연구진은 총 50라운드의 무작위 실험을 수행했으며, 각 라운드에서 데이터 세트를 8:2의 비율로 훈련 세트와 테스트 세트로 나누었습니다. 훈련 세트를 적용하여 각 모델을 훈련한 다음, 훈련된 모델을 테스트 세트에 대한 면역원성 예측을 위해 평가했습니다.

50회의 무작위 실험의 평균 ROC 통계는 RF가 가장 강력한 예측 능력을 가지고 있음을 보여주었습니다.
면역원성에 대한 모델의 예측 능력을 향상시키기 위해,연구자들은 처음 세 가지 모델(RF, XGBoost, kNN)을 기반으로 소프트 투표 앙상블 분류기(VirusImmu)를 구축했습니다.RF, XGBoost, kNN의 예측은 가중되어 결합되어 가중 확률의 합을 얻습니다.
연구진은 RF, XGBoost, kNN의 가중치를 결정하기 위해 각각에 대해 가능한 모든 가중치(총 232개)를 계산하고, 가중치를 0에서 1까지 0.05씩 증가시킨 다음, ROC 분석을 사용하여 다양한 가중치에서 모델의 성능을 평가했습니다.
결과는 VirusImmu가 개별 테스트 세트 모델보다 성능이 우수하다는 것을 보여줍니다.
VirusImmu는 단백질 서열 길이에 관계없이 뛰어난 성능을 보입니다.
* 비교 실험 1: VirusImmu와 VaxiJen의 성능 비교
VaxiJen은 단백질 서열의 물리화학적 특성을 사용하여 면역원성을 예측하는 몇 안 되는 방법 중 하나입니다. VirusImmu와 달리 Vaxijen은 단일한 기존 회귀 알고리즘이나 다수결 투표를 사용합니다. 따라서 연구진은 VirusImmu와 VaxiJen의 성능을 비교했습니다.
테스트 세트에서 VirusImmu의 AUC(곡선 아래 면적)는 0.782이고, VaxiJen의 AUC는 0.75입니다. 평균 ROC 곡선은 VirusImmu가 VaxiJen보다 더 나은 것으로 나타났습니다(신뢰 구간은 95%).
* 비교 실험 2: VirusImmu와 RF, kNN, XGBoost의 성능 비교
VirusImmu의 성능을 더욱 검증하기 위해 연구진은 59개 항원과 54개 비항원이 포함된 외부 테스트 세트를 독립적으로 수집했습니다.
ROC 곡선은 VirusImmu(AUC=0.712)가 RF(AUC=0.676)와 kNN(AUC=0.699)보다 성능이 뛰어나고 XGBoost(AUC=0.717)와 유사한 성능을 보인다는 것을 보여줍니다. VaxiJen은 외부 테스트 세트에서 가장 나쁜 성과를 보였습니다(AUC=0.609).
간단히 말해서,VirusImmu는 일반적으로 사용되는 8가지 ML 예측 방법 및 VaxiJen과 비교하여 테스트 세트와 외부 테스트 세트 모두에서 더욱 안정적인 단백질 면역원성 예측을 생성했습니다.
* 비교 실험 3: VirusImmu, NetBCE 및 EpiDope의 성능 비교
연구자들은 또한 VirusImmu의 성능을 최근 발표된 두 가지 예측 방법인 NetBCE와 EpiDope의 성능과 비교했습니다. NetBCE는 24개 아미노산 미만의 단백질 서열에 대한 면역원성만 예측할 수 있습니다.VirusImmu는 긴 단백질 서열 조각과 짧은 단백질 서열 조각을 모두 고려할 수 있습니다. EpiDope는 ELMo(Embedding Language Model) 딥 신경망(DNN)과 LSTM(Long Short-Term Memory) DNN을 결합하여 AUC 0.667을 달성했지만 VirusImmu(AUC=0.712)보다 성능이 떨어졌습니다.

* 비교 실험 4: Virusimmu와 다른 모델 간의 견고성 비교
모든 모델의 견고성을 테스트하기 위해 연구진은 외부 테스트 세트에서 약 30% 항원 및 비항원 샘플을 사용하여 무작위 샘플링을 50회 수행했습니다. VirusImmu는 AUC와 F1 점수 측면에서 VaxiJen보다 더 나은 성능을 달성합니다.
참고: F1 점수는 모델의 정확도와 재현율의 조화 평균입니다.
모델의 예측 능력은 단백질 서열의 길이에 영향을 받을 수 있으므로, 연구진은 외부 테스트 세트를 단백질 서열 길이를 200bp씩 증분하는 5개 그룹으로 그룹화한 다음, 50라운드의 무작위 샘플링을 수행했습니다.
XGBoost와 Virusimmu는 모두 외부 검증 데이터에서 좋은 성능(상위 2개)을 달성했습니다. XGBoost의 AUC는 Virusimmu보다 약간 더 좋지만 F1 점수는 더 낮습니다. XGBoost는 200bp와 600-800bp보다 작은 단백질의 경우에도 Virusimmu보다 성능이 떨어집니다.
대부분의 에피토프는 길이가 200보다 짧은 단백질 조각이기 때문에 Virusimmu는 XGBoost보다 더 나은 적용 시나리오를 갖습니다.
전반적인,Viruslmmu는 서열 비교에 기반하지 않으며 단백질 서열 길이의 영향을 제거합니다. 유사한 예측 도구와 비교했을 때, 이 도구는 더 높은 정확도와 더 큰 다양성으로 단백질과 펩타이드를 예측하는 데 적합합니다.

VirusImmu의 신뢰성을 더욱 입증하기 위해 연구진은 출판된 문헌에서 SARS-CoV-2 에피토프를 선택하여 VirusImmu의 면역원성 예측 능력을 검증했습니다.
결과는 다음과 같습니다4개 논문에 포함된 15개 에피토프 중 14개가 VirusImmu에 의해 항원으로 예측되었으며, 이를 통해 VirusImmu가 바이러스 단백질의 면역원성을 예측하는 데 우수한 성능을 보였다는 것이 확인되었습니다.
VirusImmu는 아프리카돼지열병 바이러스(ASFV)에 대한 펩타이드 백신 후보를 식별하는 데 도움이 됩니다.
아프리카돼지열병 바이러스에 대한 효과적인 백신이나 치료법이 없으므로, 보호 항원을 식별하는 것이 필요합니다. 연구에 따르면 바이러스의 구조적 무결성에 필수적인 ASFV pp220 폴리단백질에는 돼지에서 강력한 면역 반응을 유도할 수 있는 에피토프가 포함되어 있어 백신 개발에 응용할 수 있는 잠재력이 있는 것으로 나타났습니다.
항원성 에피토프를 식별하기 위해 연구진은 BCPred, 면역 에피토프 데이터베이스(IEDB) 서버를 포함한 가장 널리 사용되는 방법 17개를 사용했고 pp220 단백질에서 1,376개의 B세포 선형 에피토프 후보를 예측했습니다.
연구진은 항원성 에피토프를 걸러내기 위해 엄격한 기준을 사용했으며, VaxiJen≤1.3의 예측 결과를 바탕으로 29개의 에피토프가 남았으며, 그중 12개는 비알레르겐 및 비독소로 분류되었습니다. VirusImmu는 12개 에피토프 중 8개가 항원성이라고 예측했습니다.

연구진은 8개 에피토프가 ASFV 혈청 IgG 항체에 결합하는지 확인하기 위해 ASFV에 감염된 돼지 5마리와 건강한 돼지 5마리로부터 혼합 혈청을 수집했습니다.
간접 ELISA 분석법을 통해 항원성 선형 B세포 에피토프 7개를 확인했지만, 그 중 하나는 ASFV에 감염된 돼지의 혈청 항체와 특이적이고 용량 의존적으로 반응했지만 건강한 돼지에서는 그렇지 않았습니다. 반면 임의의 대조 펩타이드('RRRRRRRRRRRRRR')는 효과가 없었습니다. VirusImmu가 비항원성('VLEEQSKIDPNF')으로 예측한 에피토프도 혈청 항체와 특이적으로 결합하지 않는 것으로 나타났습니다.
이러한 결과는 VirusImmu를 실제 상황에 적용하는 데 대한 강력한 사례를 제공합니다.
AI 기술, 백신 개발 가속화
과학기술의 급속한 발전으로 AI는 생물의학 분야에서 새로운 획기적인 발전을 이루었습니다. Deepmind가 개발한 Alphaford 2는 단백질 구조를 성공적으로 예측했고, 이후에는 생성 단백질과 같은 새로운 기술이 등장했습니다. 약물 개발 과정에서 AI 기술은 도구의 역할을 더 많이 합니다.

첫째, AI는 바이러스 게놈의 분석 및 예측에 사용될 수 있습니다.AI는 방대한 양의 바이러스 게놈 데이터에 대한 심층 학습과 패턴 인식을 통해 바이러스의 돌연변이와 진화 추세를 정확하게 예측할 수 있으며, 이를 통해 과학자들이 바이러스의 주요 단백질 표적을 신속하게 파악하고 관련 백신을 신속하게 개발하는 데 도움이 됩니다.
둘째, AI는 백신 개발의 약물 선별 단계에서 중요한 역할을 합니다.기존의 약물 검사 과정은 일반적으로 시간이 많이 걸리고, 노동 집약적이며, 불확실합니다. 그러나 AI는 대규모 시뮬레이션 실험과 데이터 마이닝을 통해 약물과 바이러스 간의 상호 작용을 빠르게 평가하고, 잠재적인 활동성을 가진 후보 약물을 걸러내고, 백신 개발의 효율성을 높일 수 있습니다.
또한, AI는 백신 임상 시험의 설계를 최적화하는 데 사용될 수 있습니다.AI는 대규모 실험 데이터를 시뮬레이션함으로써 과학자들이 백신이 인체에 미치는 반응과 효과를 예측하고 평가하고, 발생 가능한 안전 문제와 부작용을 미리 발견하고, 실험 설계를 최적화하는 데 도움을 줄 수 있습니다.
시장에서는 다국적 제약회사들이 AI 기술에 더 많은 관심을 기울이는 경향이 있습니다. AI 컨설팅 기업 딥파마인텔리전스의 통계에 따르면, 2022년 12월 기준 전 세계 800개 AI 제약기업에 대한 총 투자액은 59억 3천만 달러에 달해 9년 만에 27배 증가했습니다.
그렇다면 AI 기술은 백신 및 기타 약물 개발에 있어서 어떤 다른 과제에 직면할까요? 복단대학교 경영대학원 정보관리 및 비즈니스 인텔리전스학과 조교수인 리원원에 따르면, AI 알고리즘을 형성하려면 학습에 엄청난 양의 데이터가 필요하며, 약물 연구 개발 분야에서 이러한 데이터에는 단백질의 관련 구조, 다양한 아미노산 서열 등이 포함됩니다.
현재, 약물 연구 개발에 AI 기술을 적용하는 데 있어 어려움은 데이터의 수집과 축적에 있습니다. 실험실 데이터는 비용이 많이 들고, 제약 회사들은 충분한 데이터를 공유하지 않으며, 기본적인 라벨이 부착된 데이터는 부족합니다. 이것들은 모두 제한사항입니다.