HyperAI초신경

NeurIPS 24에 선정되었습니다! 절강대학교 연구팀은 SOTA 모델보다 돌연변이 효과를 더 잘 예측하는 새로운 노이즈 제거 단백질 언어 모델 DePLM을 제안했습니다.

特色图像

수십억 년의 진화 과정에서 나타난 단백질의 구조와 기능의 다양성은 생물학적 기능의 주요 매개체로서 약물 발견 및 재료 과학과 같은 분야의 발전을 위한 중요한 기회를 제공해 왔습니다. 그러나 기존 단백질의 본질적인 특성(예: 열 안정성)은 많은 경우 실제 필요 사항을 충족시키지 못합니다. 따라서 연구자들은 단백질의 특성을 향상시키기 위해 단백질을 최적화하는 데 집중합니다.

기존의 심층 돌연변이 스캐닝(DMS)과 지향성 진화(DE)는 값비싼 습식 실험 기술에 의존합니다. 이와 대조적으로, 머신 러닝 기반 방법은 돌연변이 효과를 빠르게 평가할 수 있으며, 이는 효율적인 단백질 최적화에 매우 중요합니다.그 중에서도 널리 사용되는 연구 방법은 진화적 정보를 사용하여 돌연변이의 영향을 테스트하는 것입니다.진화 정보는 단백질 서열의 특정 위치에 아미노산이 나타날 확률을 통해 돌연변이의 영향을 추론하는 데 사용될 수 있습니다. 한 아미노산이 다른 아미노산으로 돌연변이될 확률을 계산하기 위해 주류 방식에서는 수백만 개의 단백질 서열을 학습한 단백질 언어 모델(PLM)을 사용하여 자체 감독 방식으로 진화 정보를 수집합니다.

그러나 기존의 접근 방식은 종종 두 가지 핵심 측면을 간과합니다.- 첫째, 기존 방법은 관련성 없는 진화 정보를 제거하는 데 실패합니다. 진화는 생존 필요성을 충족하기 위해 여러 특성을 동시에 최적화하는데, 이로 인해 목표 특성을 최적화하는 것이 어려워지는 경우가 많습니다. 두 번째로, 현재 주류 학습 목표에는 데이터 세트별 정보가 포함되어 있는데, 이는 종종 현재 훈련 데이터에 과도하게 적합되어 모델이 새로운 단백질에 대해 일반화하는 능력을 제한합니다.

이러한 과제를 해결하기 위해 저장대학교 컴퓨터과학기술학원, 저장대학교 국제학원, 저장대학교 항저우 국제과학기술혁신센터의 천화준 교수, 장치앙 박사 등이 공동으로 단백질에 최적화된 새로운 잡음 제거 단백질 언어 모델(DePLM)을 제안했습니다.핵심은 단백질 언어 모델이 포착한 진화 정보 EI를 특징 관련 정보와 무관한 정보가 섞인 것으로 간주하는 것입니다. 여기서 무관한 정보는 대상 특징의 "노이즈"와 유사하므로 이 "노이즈"를 제거해야 합니다. 광범위한 실험을 통해 이 연구에서 제안된 순위 기반 노이즈 제거 프로세스가 강력한 일반화 기능을 유지하면서도 단백질 최적화 성능을 크게 향상시킨다는 것이 입증되었습니다.

관련 결과는 "DePLM: 속성 최적화를 위한 단백질 언어 모델 노이즈 제거"라는 제목으로 NeurIPS 24 최고 컨퍼런스에 선정되었습니다.

연구 하이라이트:

* DePLM은 PLM에 포함된 진화 정보를 최적화하여 관련 없는 정보를 효과적으로 걸러내고 단백질 최적화를 개선할 수 있습니다.

* 본 연구에서는 잡음 제거 확산 프레임워크에서 순위 기반 순방향 프로세스를 설계하여 확산 프로세스를 돌연변이 가능성의 순위 공간으로 확장하고 학습 목표를 수치적 오류 최소화에서 순위 관련성 최대화로 전환하여 데이터 세트에 독립적인 학습을 촉진하고 강력한 일반화 능력을 보장합니다.

* 광범위한 실험 결과는 DePLM이 돌연변이 효과를 예측하는 데 있어 최신 모델보다 성능이 뛰어날 뿐만 아니라 새로운 단백질에 대한 강력한 일반화 기능도 보여준다는 것을 보여줍니다.


서류 주소:
https://neurips.cc/virtual/2024/poster/95517 

공식 계정을 팔로우하고 "Denoised Protein Language Model"에 답글을 남겨 전체 PDF를 받으세요.

ProteinGym 단백질 돌연변이 데이터 세트 다운로드:
https://hyper.ai/datasets/32818

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 심층적 돌연변이 스크리닝 실험의 광범위한 컬렉션

ProteinGym은 217개의 데이터 세트를 포함하는 광범위한 심층 돌연변이 스크리닝(DMS) 실험 컬렉션입니다.PLM의 길이 제한으로 인해 연구진은 길이가 1,024를 넘는 야생형 단백질을 포함하는 데이터 세트를 제외하고 최종적으로 201개의 DMS 데이터 세트를 유지했습니다. ProteinGym에서는 DMS를 대략 5가지 범주로 분류합니다. 안정성은 66, 적합성은 69, 발현은 16, 결합은 12, 활동은 38입니다.

* 성능 비교 실험:연구자들은 무작위 교차 검증 방식을 사용했습니다. 이 방식에서는 데이터 세트의 각 돌연변이를 5개 폴드 중 하나에 무작위로 할당한 다음, 이 5개 폴드의 결과를 평균하여 모델의 성능을 평가했습니다.

* 일반화 능력 실험:테스트 데이터 세트가 주어지면, 연구자들은 최적화 목표(예: 열 안정성)에 부합하는 최대 40개의 데이터 세트를 무작위로 선택하여 훈련 데이터로 사용하고, 훈련 단백질과 테스트 단백질 간의 서열 유사성이 50% 미만이 되도록 하여 데이터 유출을 방지합니다.

모델 아키텍처: 정렬 공간에서의 순방향 프로세스를 기반으로 한 확산 모델 확장

앞서 언급했듯이 DePLM의 핵심은 단백질 언어 모델 PLM이 포착한 진화 정보 EI를 특징 관련 정보와 무관한 정보가 혼합된 것으로 간주하는 것입니다. 여기서 무관한 정보는 대상 특징의 "노이즈"와 유사하며 이 "노이즈"를 제거합니다. 이러한 목표를 달성하기 위해 연구진은 노이즈가 많은 입력을 정제하여 원하는 출력을 생성하는 노이즈 제거 확산 모델에서 영감을 얻었습니다.

구체적으로 연구진은 아래 그림에서 보듯이 진화 정보의 잡음을 제거하기 위해 확산 모델을 확장하기 위해 정보 정렬을 기반으로 하는 순방향 프로세스를 설계했습니다.아래 그림의 왼쪽에서 DePLM은 PLM에서 파생된 진화 가능성을 입력으로 사용하고 특정 속성에 대한 잡음이 제거된 가능성을 생성하여 돌연변이의 영향을 예측합니다. 아래 그림의 중앙과 오른쪽에서, 노이즈 제거 모듈은 특징 인코더를 사용하여 1차 및 3차 구조를 고려하여 단백질의 표현을 생성한 다음, 이를 사용하여 노이즈 제거 모듈을 통해 우도의 노이즈를 필터링합니다.


DePLM 아키텍처 개요

잡음 제거 확산 모델은 두 가지 주요 프로세스로 구성됩니다.전방 확산 과정과 역방향 잡음 제거 과정을 학습해야 합니다. 전방 확산 과정 동안 실제 값에 소량의 노이즈가 점차 추가됩니다. 그런 다음 역방향 잡음 제거 프로세스는 누적된 잡음을 점진적으로 제거하여 실제 값을 복구하는 방법을 학습합니다.

그러나 단백질 최적화에서 돌연변이 확률을 제거하기 위해 이러한 모델을 적용하는 데는 두 가지 주요 과제가 있습니다. 첫째, 실제 특성 값과 실험 측정값 간의 관계는 종종 비선형성을 보이는데, 이는 실험 방법의 다양성에서 비롯됩니다. 따라서 노이즈 제거를 위해 예측된 값과 관찰된 값의 차이를 최소화하는 것에만 의존하면 모델이 특정 데이터 세트에 과적합되어 모델의 일반화 능력이 떨어질 수 있습니다. 두 번째로, 기존의 잡음 제거 확산 모델과는 달리 연구자들은 누적된 잡음이 수렴되기를 원합니다.

이러한 과제를 해결하기 위해 연구자들은 순위 기반 잡음 제거 확산 과정을 제안했습니다.아래 그림에서 볼 수 있듯이, 순위 관련성을 극대화하는 데 중점을 둡니다. 아래 그림의 왼쪽에서 DePLM의 훈련은 두 가지 주요 단계로 구성됩니다. 전방 손상 프로세스와 학습된 역방향 잡음 제거 프로세스입니다.

노이즈 추가 단계에서 연구진은 속성별 가능성에 따른 순위에서 진화적 가능성에 따른 순위로 전환되는 궤적을 생성하기 위해 정렬 알고리즘을 사용했으며, DePLM은 이 역방향 프로세스를 시뮬레이션하도록 훈련되었습니다. 아래 그림의 오른쪽에서 연구자들은 진화 가능성에서 속성별 가능성으로 전환할 때 스피어만 계수의 변화를 보여줍니다.


DePLM 교육 과정

마지막으로, 데이터세트에 독립적인 학습과 강력한 모델 일반화 기능을 달성하기 위해연구자들은 특징 값의 순서 공간에서 확산 과정을 수행하고 수치적 오류를 최소화하는 기존 목표를 순서 관련성을 최대화하는 목표로 대체했습니다.

연구 결과: DePLM은 우수한 성능과 강력한 일반화 능력을 가지고 있습니다.

성능 평가: 진화 정보와 실험 데이터를 결합하는 이점 검증

먼저, 단백질 공학 작업에서 DePLM의 성능을 평가하기 위해 연구진은 4개의 단백질 시퀀스 인코더(CNN, ResNet, LSTM, Transformer)와 5개의 자체 감독 모델(OHE, ESM-1v의 미세 조정 버전, ESM-MSA, Tranception, ProteinNPT)을 포함한 9개의 기준선과 비교했습니다.

결과는 아래 표에 나와 있으며, 가장 좋은 결과와 두 번째로 좋은 결과는 각각 굵은 글씨로 표시되고 밑줄이 그어져 있습니다. 전반적인,DePLM은 기준 모델보다 우수한 성능을 보이며, 단백질 공학 작업에서 진화적 정보와 실험 데이터를 결합하는 이점이 있음을 확인시켜 주었습니다.


단백질 엔지니어링 작업에서 DePLM 및 기준 모델의 성능


ESM-MSA와 Tranception은 다중 서열 정렬(MSA)의 도입으로 인해 ESM-1v보다 더 강력한 진화적 정보를 보여준다는 점이 주목할 만합니다. 연구자들은 결과를 비교함으로써 고품질 진화 정보가 미세 조정 후 결과를 크게 향상시킨다는 것을 입증했습니다. 하지만 이러한 개선에도 불구하고, 그 성능은 여전히 DePLM 수준에는 미치지 못합니다. 연구자들은 또한 다음과 같은 사실을 지적했습니다.DePLM은 ProteinNPT보다 성능이 뛰어나 제안된 노이즈 제거 교육 절차의 효과를 강조합니다.

일반화 능력 평가: 무관한 요인의 영향을 제거하고 성과를 향상시킵니다.

다음으로, 연구진은 DePLM의 일반화 능력을 추가로 평가하기 위해 4개의 자기 감독 기준선(ESM-1v, ESM-2, TranceptEVE), 2개의 구조 기반 기준선(ESM-IF, ProteinMPNN), 3개의 지도 기준선(CNN, ESM-1v, ESM-2의 미세 조정 버전)과 비교했습니다.

결과는 다음 표에 나타나 있습니다. 가장 좋은 결과와 두 번째로 좋은 결과는 각각 굵은 글씨와 밑줄로 표시되었습니다. 관찰할 수 있습니다DePLM은 모든 기준 모델보다 지속적으로 우수한 성능을 보였습니다. 이는 필터링되지 않은 진화 정보에만 의존하는 모델의 부적절성을 다시 한번 보여주는데, 이러한 모델은 여러 목표를 동시에 최적화하여 대상 속성을 희석시키는 경우가 많습니다. DePLM은 관련 없는 요소의 영향을 제거함으로써 성과를 크게 개선합니다.


일반화 능력 평가

게다가 예측 점수와 실험 점수의 차이를 최소화하도록 훈련된 기준 모델 ESM1v(FT)와 ESM2(FT)는 DePLM보다 성능이 훨씬 떨어집니다. 이 결과는 다음을 보여줍니다.순위 공간에서 모델을 최적화하면 특정 데이터 세트의 편향이 줄어들어 일반화가 향상됩니다.또한 연구진은 단백질 구조 정보가 안정성과 결합에 영향을 미치는 반면, 진화 정보는 적응성과 활동 특성을 향상시킨다는 사실을 관찰했습니다.

요약하자면, 많은 수의 실험 결과는 다음과 같습니다.DePLM은 돌연변이 효과를 예측하는 데 있어 현재의 최첨단 모델을 능가할 뿐만 아니라, 새로운 단백질에 대한 강력한 일반화 기능도 보여줍니다.

저장대학교 팀은 PLM을 지속적으로 심화하고 생물산업 발전을 촉진합니다.

단백질 빅언어 모델은 단백질 구조, 기능 및 상호작용을 정확하게 예측할 수 있는 능력을 갖추고 있으며, 생물학에서 AI 기술을 최첨단으로 응용한 사례입니다. 단백질 서열의 패턴과 구조를 학습함으로써 단백질의 기능과 형태를 예측할 수 있는데, 이는 신약 개발, 질병 치료 및 기초 생물학 연구에 매우 중요합니다.

이러한 유망한 신흥 분야에 직면하여, 저장대학교 연구팀은 최근 몇 년 동안 이 분야를 계속 연구해 왔고 수많은 혁신적인 과학 연구 성과를 달성했습니다.

2023년 3월, 천화준 교수, 장치앙 박사 및 AI 학제센터 연구팀은 단백질 언어에 대한 사전 학습 모델을 개발했습니다. 이 모델과 관련된 연구는 "즉각적인 학습을 통한 다단계 단백질 구조 사전 훈련"이라는 제목으로 2023 ICLR 기계 학습 표현 국제 컨퍼런스에서 발표되었습니다. ICLR 컨퍼런스는 딥 러닝 분야의 최고 컨퍼런스 중 하나이며, 튜링상 수상자 두 명인 요슈아 벤지오와 얀 르쿤이 설립했다는 점도 언급할 가치가 있습니다.

본 연구에서 연구팀은 세계 최초로 단백질 중심의 신속한 학습 메커니즘을 제안하고 PromptProtein 모델을 구축했습니다.단백질의 1차, 3차, 4차 구조 정보를 모델에 주입하기 위해 세 가지 사전 학습 작업이 설계되었습니다. 자연어 처리의 프롬프트 기술에서 영감을 받아 구조적 정보를 유연하게 활용하기 위해 연구진은 프롬프트 기반 사전 학습 및 미세 조정 프레임워크를 제안했습니다. 단백질 기능 예측 작업과 단백질 공학 작업에 대한 실험 결과는 제안된 방법이 기존 모델보다 더 나은 성능을 보인다는 것을 보여줍니다.

2024년까지 해당 팀은 연구에서 더 많은 진전을 이루었습니다. PLM은 아미노산 서열을 이해하는 데는 능하지만 인간 언어를 이해할 수 없다는 과제를 해결하기 위해저장대학의 천화준과 장치앙 연구팀은 지식 명령어를 사용하여 단백질 언어와 인간 언어를 정렬하고, 단백질 언어와 인간 언어 간의 양방향 생성 능력을 탐색하고, 두 언어 간의 격차를 효과적으로 메우고, 생물학적 시퀀스를 대규모 언어 모델로 통합하는 능력을 보여주는 InstructProtein 모델을 제안했습니다.

"InstructProtein: 지식 교육을 통해 인간과 단백질 언어 정렬"이라는 제목의 연구가 ACL 2024 본 회의에서 수락되었습니다. 다수의 양방향 단백질 텍스트 생성 작업에 대한 실험은 InstructProtein이 기존의 최첨단 LLM보다 성능이 우수하다는 것을 보여줍니다.

자세한 보고서를 보려면 클릭하세요: ACL2024 주요 컨퍼런스에 선정됨 | InstructProtein: 지식 지침을 사용하여 단백질 언어를 인간 언어에 맞추기

서류 주소: 

https://arxiv.org/abs/2310.03269

사실, 이 기사는 팀이 진행 중인 작업의 한 측면일 뿐입니다. 저장대학교 AI 학제센터의 연구진은 단백질이나 분자 언어의 대규모 모델을 사용하여 iBioFoundry와 iChemFoundry와 같은 과학 실험 로봇을 구동하고, 실제 센서 신호, 단백질 및 인간 언어를 결합하여 언어와 지각 간의 연관성을 확립하는 방법을 개발하고자 하는 것으로 알려졌습니다.

앞으로 연구팀은 연구 결과를 더욱 산업화하고 신약 개발과 생명·건강 분야에 대한 더욱 가치 있는 탐구와 지원을 할 수 있기를 기대합니다.

참고문헌:

1.https://neurips.cc/virtual/2024/poster/95517

2.https://hic.zju.edu.cn/2023/0328/c56130a2733579/page.htm