AI는 RNA 바이러스 연구에서 역사적인 혁신을 촉진합니다. Sun Yat-sen University 및 기타 기관에서는 딥 러닝 모델을 사용하여 160,000개 이상의 새로운 바이러스를 발견했습니다.

2020년 초, 신종 코로나바이러스의 그림자가 빠르게 전 세계를 휩쓸었습니다. 시간과의 경쟁에서 우리는 수많은 용감한 개인과 팀이 앞장서는 것을 보았고, 사회 시스템은 거듭거듭 엄격한 시험을 거쳤으며, 또한 세계 공중 보건 분야에 경종을 울렸습니다.
코로나바이러스는 RNA 바이러스이기 때문에 큰 두려움을 갖고 있습니다. 이 유형의 바이러스는 복제 중에 오류 수정 메커니즘이 부족하고 돌연변이가 발생하기 쉽습니다. 이러한 돌연변이 능력은 RNA 바이러스가 종 간 확산과 숙주 범위 확장을 가능하게 할 뿐만 아니라 병원성을 변화시킬 수도 있습니다. 원래 인간에게 무해한 바이러스가 돌연변이를 일으키면 병원성을 띠어 질병을 일으킬 수 있습니다. 인간은 일반적으로 이러한 돌연변이 바이러스에 대한 면역력이 부족하므로, 바이러스가 돌연변이를 일으키면 대규모 전염병이 빠르게 발생할 수 있습니다.
바이러스는 인간의 건강과 밀접한 관련이 있지만, 인간에서 알려지고 확인된 바이러스 종은 5,000종 남짓에 불과합니다. 이는 빙산의 일각에 불과합니다. 기존의 RNA 바이러스 식별 방법은 서열 상동성 비교에 크게 의존합니다. 즉, 알려지지 않은 바이러스와 알려진 바이러스 간의 서열 유사성을 비교하여 식별을 수행합니다. 하지만,RNA 바이러스는 그 수가 많고 매우 차별화되어 있기 때문에, 기존 방법으로는 상동성이 없거나 상동성이 매우 낮은 "다크 매터 바이러스"를 포획하기 어렵습니다.이로 인해 새로운 바이러스 발견의 효율성이 제한됩니다.
지난 10년 동안 인공지능 관련 방법, 특히 딥러닝 알고리즘은 생명과학의 다양한 연구 분야에 상당한 영향을 미쳤습니다. AI와 바이러스학 연구를 결합하면 인간이 RNA 바이러스를 식별하는 데 따르는 어려움을 극복할 수 있는 새로운 방법을 제공할 수 있습니다.
최근에,중산대학 의학부의 시망 교수는 저장대학, 복단대학, 중국농업대학, 홍콩시립대학, 광저우대학, 시드니대학, 알리바바 클라우드 페이톈 연구실 등과 협력하여 새로운 딥러닝 모델인 루카프로트(LucaProt)를 제안했습니다.이 모델은 클라우드 컴퓨팅과 AI 기술을 사용하여 180개의 슈퍼그룹과 16만 개 이상의 새로운 RNA 바이러스를 발견했는데, 이는 알려진 바이러스 수의 약 30배에 해당합니다. 이를 통해 업계에서는 RNA 바이러스 다양성과 바이러스 진화 역사에 대한 이해가 크게 향상되었습니다. 이 연구에서는 또한 현재까지 가장 긴 RNA 바이러스 유전체를 발견했는데, 길이가 47,250개 뉴클레오티드에 달해 RNA 바이러스 식별 분야에서 큰 획기적인 진전을 이루었습니다.
해당 연구는 "인공지능을 활용한 숨겨진 RNA 바이러스권 문서화"라는 제목으로 국제 학술지 Cell에 게재되었습니다.
연구 하이라이트:
* AI 기반 메타게놈 마이닝 기술은 전 세계 RNA 바이러스 다양성의 전례 없는 확장을 달성했습니다.
* 정밀한 식별을 통해 161,979종의 잠재적 RNA 바이러스 종과 180종의 바이러스 슈퍼그룹이 존재한다는 사실이 밝혀졌습니다.
* 이 연구에서는 모듈형 구조적 특성을 가질 수 있는 지금까지 가장 긴 RNA 바이러스 게놈을 발견했습니다.

서류 주소:
https://doi.org/10.1016/j.cell.2024.09.027
공식 계정을 팔로우하고 "RNA 바이러스 식별"에 답글을 달면 전체 PDF를 받을 수 있습니다.
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 전 세계 다양한 생태계를 포괄하는 RNA 바이러스는 다양합니다.
본 연구는 먼저 NCBI SRA, CNGBdb 등의 데이터베이스를 체계적으로 검색하여 전 세계 다양한 생태계에 존재하는 RNA 바이러스의 다양성에 대한 심층 연구를 수행하고자 했습니다.
아래 그림 A에서 볼 수 있듯이, 연구팀은 전 세계의 생물학적 환경 샘플에서 총 10,487개의 데이터 세트를 검토했습니다.관련된 총 시퀀싱 데이터는 51TB에 달했고, 13억 개 이상의 단편과 8억 7,200만 개의 예측 단백질이 생성되었습니다.연구진은 이러한 대규모 데이터 세트를 사용하여 잠재적인 바이러스 RdRP를 밝혀내고 검증했으며, 2가지 다른 전략을 사용하여 교차 검증했습니다.

두 가지 검색 전략의 결과를 결합하여,이 연구에서는 161,979종의 잠재적 바이러스 종과 180종의 RNA 바이러스 슈퍼그룹을 나타내는 513,134종의 바이러스 유전체를 발견했습니다.이번 발견으로 RNA 바이러스 슈퍼그룹에 대한 연구가 상당히 확장되어, 슈퍼그룹을 약 9배, 바이러스 종 수는 약 30배 증가했습니다.
아래 그림 C에서 볼 수 있듯이, 이 연구에서는 다른 연구의 RdRP 단백질 서열을 비교했습니다.새롭게 확인된 잠재적으로 독특한 바이러스 종은 총 70,458종으로 밝혀졌습니다.

이 연구에서는 또한 이전에 인식되지 않았고 충분히 탐색되지 않은 60개의 슈퍼그룹을 발견했습니다.이러한 슈퍼그룹은 지금까지 제한적인 관심만을 받았습니다. 특히 주목할 점은 아래 그림 D에 표시된 것처럼, 이 연구에서는 이러한 슈퍼그룹 중 23개가 기존의 서열 상동성 방법으로는 식별할 수 없다는 것을 발견했으며, 이를 바이러스권의 "암흑 물질"이라고 부릅니다.

LucaProt: 바이러스학 연구에 새로운 패러다임을 열어주는 데이터 기반 딥 러닝 모델
이 연구에서는 데이터 기반의 딥러닝 모델인 LucaProt을 개발했습니다. 아래 그림 E에서 볼 수 있듯이 LucaProt은 입력, 토크나이저, 인코더, 풀링 및 출력의 5가지 핵심 모듈로 구성됩니다.
* 입력:주로 아미노산 서열을 수신하는 역할을 담당함;
* 토크나이저:원래 시퀀스를 모델이 이해할 수 있는 형식으로 변환하는 일을 주로 담당합니다. 이 모듈은 바이러스 및 비바이러스 RdRP 시퀀스로 구성된 코퍼스를 구성하고 BPE 알고리즘을 사용하여 단백질 시퀀스를 개별 아미노산으로 분해하여 구조 정보를 추출하는 어휘를 만드는 작업을 포함합니다.
* 인코더:주로 데이터를 두 가지 표현 형태로 변환하는 역할을 담당하는데, 하나는 Transformer-Encoder가 생성한 시퀀스 표현 행렬이고, 다른 하나는 구조 예측 모델 ESMFold가 생성한 구조 표현 행렬입니다. 이러한 이중 트랙 표현 방식은 3D 구조 데이터의 부족 문제를 해결할 뿐만 아니라 계산 효율성도 향상시킵니다.
* 풀링:주로 값 수준 주의 풀링 방법(VLAP)을 통해 시퀀스 행렬과 구조 행렬을 2개의 벡터로 변환하고, 차원을 줄이고, 효과적인 분류를 위한 특징을 선택하는 역할을 합니다.
* 출력:주로 이러한 벡터를 확률 값으로 변환하여 샘플이 바이러스 RdRP일 가능성을 나타내는 역할을 합니다. 시퀀스는 시그모이드 함수를 통해 바이러스 RdRP 또는 비바이러스 RdRP로 분류되었습니다.

결정적인,이 연구에서는 235,413개의 샘플을 포함하는 데이터 세트를 신중하게 준비했습니다.모델의 정확도와 일반화 능력을 향상시키는 것을 목표로 합니다. 이 데이터 세트는 5,979개의 잘 연구된 바이러스 RdRP(양성 샘플)와 229,434개의 비바이러스 RdRP(음성 샘플)로 구성되어 있습니다. 이 기술은 Transformer 프레임워크와 대규모 모델 특성화 기술을 기반으로 하고 있으며, 단백질 서열과 본질적인 구조적 특징을 결합했으며, 정확도, 효율성 및 검출된 바이러스 다양성 측면에서 기존 방법보다 우수한 성능을 발휘합니다.
더 중요한 점은 LucaProt이 단백질 기능을 정확하게 예측하는 데 중요한 시퀀스 데이터뿐만 아니라 구조 정보도 통합한다는 것입니다.
기존 지식을 뛰어넘는 게놈 구조 발견, 지금까지 발견된 가장 긴 RNA 바이러스 게놈
LucaProt의 성능을 완벽하게 평가하기 위해 본 연구에서는 다양한 각도에서 심층 분석을 수행하여 정확성과 효율성을 종합적으로 검증했습니다.
* LucaProt 성능 평가
* 새롭게 발견된 바이러스 슈퍼그룹이 RNA 바이러스인지 검증 및 확인
* RNA 바이러스 게놈 구조의 모듈성 및 유연성 분석
* RNA 바이러스 계통학적 다양성 분석
* 전 세계 RNA 바이러스의 생태 구조 분석
5가지 방법이 성능을 위해 공동으로 평가되었으며 LucaProt가 가장 포괄적으로 수행되었습니다.
이 연구에서는 LucaProt의 성능을 평가하기 위해 다른 4가지 바이러스 발견 도구와 비교 평가했습니다. 결과는 그림 A에 표시된 것처럼LucaProt는 비교적 낮은 거짓 양성률을 유지하면서 가장 높은 재현율을 보입니다.

그림 E에서 볼 수 있듯이 계산 효율성 측면에서 LucaProt은 서로 다른 길이의 데이터 세트를 처리하기 위해 평균 6개의 데이터 세트를 사용합니다.더욱 합리적인 효율성을 입증했습니다.

마지막으로, LucaProt에 통합된 고급 Transformer 아키텍처는 그림 FH에 표시된 것처럼 더 긴 아미노산 서열의 병렬 처리를 가능하게 합니다.이 아키텍처는 다른 생물정보학 도구에서 일반적으로 사용되는 CNN/RNN 인코더보다 시퀀스 공간의 먼 부분 간의 관계를 포착하는 데 더 효과적입니다.

기존 RdRP와 서열 유사성을 보이는 새로 발견된 RNA 바이러스 슈퍼그룹의 검증 및 구조적 특성 분석
연구팀은 50개의 환경 샘플에서 DNA와 RNA를 추출하고 시퀀싱하여 이들 샘플에서 확인된 115개의 바이러스 슈퍼그룹의 존재를 확인하는 것을 목표로 했습니다. 패널 B에 표시된 대로, RNA 시퀀싱 판독만이 바이러스 RdRP와 관련된 시퀀스에 성공적으로 매핑되었고, RNA와 DNA 시퀀싱 판독은 각각 DNA 바이러스, 레트로바이러스(RT), 세포 생물과 관련된 시퀀스에 매핑되었습니다.
또한 연구팀은 그림 C에서 보듯이, 더 민감한 RT-PCR 방법을 적용하여 115개의 바이러스 슈퍼그룹 중 17개를 추가로 확인했습니다. 이러한 슈퍼그룹에서는 DNA 추출을 통해 바이러스 RdRP를 인코딩하는 시퀀스를 감지하지 못했습니다.이는 이들 바이러스 슈퍼그룹이 실제로 RNA 생물체라는 것을 더욱 확증해줍니다.

지금까지 발견된 가장 긴 RNA 바이러스 게놈
이 연구는 가정된 RNA 바이러스 게놈의 구성과 구조에 대한 심층 분석을 통해 대부분 게놈의 길이가 약 2,131개 뉴클레오티드에 집중되어 있지만, RdRP를 인코딩하는 게놈 또는 게놈 조각의 길이는 슈퍼그룹마다 상당히 다르다는 것을 발견했습니다. 특히, 이 연구에서는 그림 C에 표시된 것처럼 토양 샘플에서 매우 긴 RNA 바이러스 게놈을 식별했는데, 그 중 하나는 길이가 47.3kb에 달합니다.이는 알려진 RNA 바이러스 중 가장 긴 바이러스 중 하나입니다.이 초장거리 유전체에서 이번 연구는 50번째 끝과 RdRP 코딩 영역 사이에 위치한 추가 ORF를 발견했지만, 그 기능에 대해서는 추가 연구가 필요합니다.

RNA 바이러스 종의 확장 속도는 놀랍고 환경 샘플에는 더욱 고도로 분화된 RNA 바이러스가 존재할 수 있습니다.
연구에서는 또한 아래 그림에서 볼 수 있듯이 RNA 바이러스 종의 수가 국제 바이러스 분류 위원회(ICTV)에서 정의한 바이러스 종에 비해 55.9배 증가하고, 기존에 설명된 모든 RdRP 시퀀스에 비해 1.4배 증가한 것을 발견했습니다. 이러한 확장은 알려진 바이러스 그룹의 다양성 증가에서 특히 두드러지게 나타납니다.

특히, 이전에는 제한된 수의 유전체로만 표현되었던 AstroPoty, Hypo, Yan과 몇몇 새로 발견된 슈퍼그룹과 같은 일부 그룹은 높은 수준의 계통학적 다양성을 보였습니다. 예를 들어, SG023에는 1,232개의 바이러스가 포함되어 있고, SG025에는 466개의 바이러스가 포함되어 있으며, SG027에는 475개의 바이러스가 포함되어 있습니다.이는 환경 샘플에 더욱 고도로 분화된 RNA 바이러스가 존재할 수 있음을 시사합니다.우리가 발견하기를 기다리고 있어요.
RNA 바이러스는 극한 환경에서도 여전히 다양성을 유지합니다.
연구에 따르면 RNA 바이러스는 전 세계 1,612개 지역과 32개 생태계에서 발견된다고 합니다.그림 A에서 볼 수 있듯이, 이미 여러 차례 연구된 생태학적 샘플에서도 LucaProt은 여전히 5-33.3%의 새로운 바이러스 그룹을 발견했습니다.이는 RNA 바이러스의 다양성이, 특히 토양 및 수생 환경에서, 아직 충분히 탐구되지 않았음을 나타냅니다.
이 연구에서는 또한 다양한 생태계에서 RNA 바이러스의 알파 다양성과 풍부함을 비교했습니다. 그림 CD에서 볼 수 있듯이, α 다양성은 낙엽, 습지, 담수, 폐수 환경에서 가장 높았고, 풍부함은 남극 퇴적물, 해양 퇴적물, 담수 생태계에서 가장 높았습니다. 다양성과 풍부함은 암염과 지하 환경에서 가장 낮았는데, 이는 숙주 세포의 수가 적다는 사실과 일치합니다. 온천이나 열수 분출구와 같은 극단적인 생태적 하위 유형은 RNA 바이러스 다양성은 낮지만 풍부함은 적당합니다.

학계에서 산업계까지, RNA 바이러스 연구의 AI 혁명적 진보와 미래 전망
실제로 RNA 바이러스 연구에 AI를 적용하는 것은 과학 탐구에 있어서 강력한 추세가 되었습니다. 중산대학의 시망 교수가 이끄는 연구팀은 AI 기술을 이용해 획기적인 진전을 이루었고 16만 개 이상의 새로운 RNA 바이러스를 발견했습니다. 이번 성과는 해당 분야에서 중요한 이정표를 의미합니다.
그러나 2022년 초, 미국, 프랑스, 스위스 및 기타 국가의 과학자들과 협력하는 국제 연구팀은AI 머신 러닝 기술은 전 세계 해수 샘플에서 5,500개의 새로운 RNA 바이러스를 식별하는 데 사용되었습니다.RNA 바이러스 데이터베이스 구축에 기여했습니다. 이 연구는 생태학 연구의 범위를 넓힐 뿐만 아니라 RNA 바이러스의 진화에 대한 사람들의 이해를 심화시키고 지구 초기 생명의 진화를 탐구하기 위한 새로운 단서를 제공합니다.
해당 연구 결과는 "지구 RNA 바이러스의 진화적 기원에 대한 신비롭고 풍부한 해양 바이러스"라는 제목으로 Science 저널에 게재되었습니다.
* 논문 링크:
https://doi.org/10.1126/science.abm5847
물론 RNA 바이러스 연구에 AI를 적용하는 것은 알려지지 않은 분야의 탐구에만 국한되지 않고, 알려진 분야의 심층 연구에도 필수적입니다. 예를 들어, RNA 바이러스인 COVID-19는 전 세계적으로 공유되는 GISAID 데이터베이스에 약 1,600만 개의 게놈 시퀀스를 보유하고 있습니다. 이러한 데이터는 연구에 풍부한 정보를 제공하지만, COVID-19의 진화와 역사를 분석하려면 많은 컴퓨팅과 인적 자원이 필요합니다.
이러한 과제를 해결하기 위해 2024년 초 맨체스터 대학교와 옥스퍼드 대학교의 과학자들은 새로운 관련 COVID-19 변종을 식별하고 추적할 수 있는 AI 프레임워크를 개발했습니다. 이는 향후 다른 감염병을 해결하는 데 도움이 될 수 있습니다.이 프레임워크는 차원 축소 기술과 맨체스터 대학의 수학자들이 개발한 새로운 해석 가능한 클러스터링 알고리즘인 CLASSIX를 결합하여 잠재적으로 위험한 바이러스 게놈을 빠르게 식별합니다.미국 국립과학원 회보에 발표된 이 연구는 바이러스 진화를 추적하는 새로운 접근 방식을 제공하며, 바이러스 진화를 추적하는 기존 방법에 영향을 미칠 가능성이 있습니다.
산업계에서도 RNA 바이러스에 대한 연구가 활발히 진행되고 있다. RNA 바이러스는 복제 중에 돌연변이가 자주 일어나기 때문에 RNA 바이러스를 연구하고 백신을 개발하는 일은 항상 어려운 일이었습니다. 2023년 상반기에는 AI 지원 신약개발 적용이 확대될 것으로 전망된다.바이두 캘리포니아 지사의 과학자들은 AI를 사용하여 mRNA 백신을 심층적으로 최적화하여, 염기서열뿐만 아니라 구조도 개선하고 분자의 안정성을 높였습니다.이를 통해 인체 내에서 더 오랜 기간 동안 활성 상태를 유지할 수 있습니다. 이 기술이 안전하다고 입증되면, 이는 차세대 RNA 백신 개발을 위한 강력한 도구가 될 뿐만 아니라, RNA 약물 개발 분야에 새로운 아이디어를 제공할 수도 있습니다.
Deep Genomics는 2023년 하반기에 "RNA 기초 모델을 통해 질병 메커니즘과 후보 치료법을 발견할 수 있다"라는 제목의 보고서를 발표하고, 고유한 인공지능 기초 모델인 BigRNA를 소개했습니다. BigRNA는 RNA 생물학 및 치료법을 위한 최초의 트랜스포머 신경망으로, 약 20억 개의 조정 가능한 매개변수를 갖추고 1조 개의 게놈 신호를 포함하는 수천 개의 데이터세트를 학습했습니다.이는 다양한 RNA 치료법 발견 작업에 적용될 수 있는 차세대 딥 러닝 AI를 나타냅니다.
미래를 내다보면 RNA 바이러스 연구에 AI를 적용할 가능성도 매우 넓습니다. 컴퓨팅 능력이 향상되고 알고리즘이 개선됨에 따라 AI는 더 많은 데이터 세트를 처리하고 더 알려지지 않은 바이러스 집단과 그 숙주, 전염 경로를 식별할 수 있게 될 것입니다. 이를 통해 사람들은 생태계에서 RNA 바이러스의 역할에 대한 이해를 높일 수 있을 뿐만 아니라, 미래에 발생할 수 있는 전염병을 예방하고 통제하는 데 강력한 지원을 제공할 수 있습니다.
또한, 백신 설계 및 약물 개발에 AI를 적용하면 사람들이 머지않아 더욱 개인화되고 정확한 의료 솔루션을 도입할 수 있을 것이며, 이는 글로벌 공중 보건 보안에 대한 새로운 희망을 가져다줄 것입니다.