HyperAI초신경

PLM의 주요 혁신! 상하이 교통대학교와 상하이 AI 연구실의 최신 연구 결과가 NeurIPS 24에 선정되었습니다. ProSST는 단백질 구조 정보를 효과적으로 통합합니다.

特色图像

단백질은 생명에 있어서 중요한 분자입니다. 그 순서는 구조를 결정하고, 구조는 기능을 결정합니다. 단백질의 기능은 3차원 구조와 밀접한 관련이 있습니다. 지난 수십 년 동안 과학자들은 X선 결정학과 핵자기 공명과 같은 기술을 사용하여 수천 개의 단백질 구조를 밝혀냈으며, 이를 통해 사람들이 단백질 기능을 이해하는 데 중요한 단서를 제공했습니다. 그러나 수백만 개의 단백질을 대상으로 그 모든 단백질의 구조를 분석하는 작업은 극도로 힘듭니다.

자연어 처리 분야의 사전 훈련된 언어 모델에서 영감을 받아 사전 훈련된 단백질 언어 모델(PLM)이 탄생했습니다.PLM은 방대한 양의 라벨이 붙지 않은 단백질 서열 데이터를 학습함으로써 단백질 서열의 복잡한 패턴과 상호작용을 포착할 수 있었으며, 이를 통해 단백질 기능 예측, 구조 분석, 단백질-단백질 상호작용 식별 분야에서 획기적인 진전을 이루었습니다.

그러나 대부분의 PLM은 단백질 서열 모델링에만 초점을 맞추고 구조 정보의 중요성을 무시하는데, 이는 주로 구조적 데이터가 부족하기 때문입니다. AlphaFold와 RoseTTAFold와 같은 기술이 등장하면서 단백질 구조 예측의 정확도가 크게 향상되었으며, 연구자들은 단백질 구조 정보를 PLM에 효과적으로 통합하여 대규모 구조를 인식하는 사전 훈련된 언어 모델을 훈련하는 방법을 모색하기 시작했습니다.

예를 들어, 상하이 교통대학교 자연과학연구소/물리천문학부/장강고등연구소/약학대학의 홍량 교수 연구팀, 상하이 교통대학교의 저우빙신 조수 연구원, 상하이 인공지능연구소의 탄판 청년 연구원이 최근 구조 인식 기능을 갖춘 사전 훈련된 단백질 언어 모델인 ProSST를 성공적으로 개발했습니다.

구체적으로, 이 모델은 1,880만 개의 단백질 구조로 구성된 대규모 데이터 세트에 대해 사전 학습되어 단백질 구조를 아미노산 서열과 함께 Transformer 모델에 입력되는 구조화된 토큰 서열로 변환합니다. ProSST는 분산된 주의 메커니즘을 채택하여 이 두 가지 유형의 정보를 효과적으로 통합하여 열 안정성 예측, 금속 이온 결합 예측, 단백질 국소화 예측, GO 주석 예측과 같은 지도 학습 작업에서 기존 모델을 크게 능가할 수 있습니다.

"ProSST: 양자화된 구조와 얽히지 않은 주의를 갖춘 단백질 언어 모델링"이라는 제목의 연구가 NeurIPS 2024에 선정되었습니다.

연구 하이라이트:

* 본 연구에서는 단백질 구조를 일련의 개별적인 구조적 요소로 변환할 수 있는 단백질 구조 양자화기를 제안합니다. 이러한 분리된 구조적 요소는 단백질 잔류물의 국소적 구조 정보를 효과적으로 특성화할 수 있습니다.

* 본 연구에서는 단백질 아미노산 서열과 3차원 구조 간의 관계를 학습하기 위해 분리된 주의 메커니즘을 제안하여 구조 이산화 서열과 아미노산 서열 간의 효율적인 정보 통합을 촉진했습니다.

* ESM 시리즈, SaProt 등 다른 대형 단백질 사전 학습 모델과 비교했을 때, ProSST의 매개변수 개수는 110M에 불과하며, 이는 기존 ESM 시리즈의 650M보다 훨씬 적습니다. 그러나 ProSST는 거의 모든 단백질 하류 작업에서 가장 좋은 성능을 보였으며, 이는 ProSST 모델 아키텍처 설계의 우수성을 반영합니다.

* ProSST는 최대 규모의 제로샷 돌연변이 효과 예측 플랫폼인 ProteinGym Benchmark에서 1위를 차지했습니다. 최신 ProteinGym에서는 0.5 이상의 제로샷 돌연변이 성능 예측 스피어만 상관관계를 달성한 최초의 오픈 소스 모델입니다.

서류 주소:
https://neurips.cc/virtual/2024/poster/96656
공식 계정을 팔로우하고 "ProSST"라고 답글을 달면 전체 PDF를 받을 수 있습니다.

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s

1,880만 개의 단백질 구조를 포함하는 업계의 주류 비지도 사전 학습 데이터 세트를 기반으로 합니다.

ProSST의 비지도 사전 학습을 달성하기 위해 연구팀은 주로 다음과 같은 데이터 세트를 사용했습니다.

* AlphaFoldDB 데이터 세트:2억 1,400만 개가 넘는 단백질 구조, 총 1,880만 개의 구조 중에서 90%의 축소된 버전을 선택하였고, 그 중 10만 개의 구조를 무작위로 선택하여 훈련 단계에서 복잡성을 모니터링하고 조정하는 검증 세트로 사용했습니다.

* CATH43-S40 데이터 세트:여기에는 40% 서열 유사성을 사용하여 중복이 제거된 31,885개의 단백질 결정 도메인이 포함되어 있습니다. 핵심 원자(Cα 및 N 등)가 없는 구조를 제거하면 31,270개의 레코드가 남고, 이 중 200개의 구조가 모델 성능을 모니터링하고 최적화하기 위한 검증 세트로 무작위로 선택됩니다.

* CATH43-S40 로컬 구조 데이터 세트:이는 CATH43-S40 데이터 세트에서 추출한 로컬 구조로 구성되어 있습니다. 별 그래프 방법을 구축하여 구조 인코더의 임베딩 표현과 구조 코드북의 클러스터링 분석을 위해 4,735,677개의 국소 구조를 추출합니다.

* ProteinGYM 벤치마크 데이터 세트:ProSST가 0-샘플 돌연변이 효과를 예측하는 능력을 평가하는 데 사용되며, 각각 단백질의 서열 및 구조 정보를 포함하는 217개의 실험 분석이 포함되어 있으며, 특히 스피어만 계수, 탑 리콜 및 NDCG를 성능 평가 지표로 사용하여 열 안정성에 초점을 맞춘 66개의 데이터 세트에 주의를 기울였습니다.

ProSST: 두 가지 핵심 모듈을 포함한 구조 인식 기능을 갖춘 PLM

본 연구에서 개발된 ProSST(단백질 서열-구조 변환기)는 구조 인식 기능을 갖춘 사전 훈련된 단백질 언어 모델입니다. 아래 그림과 같이,ProSST는 주로 두 개의 모듈로 구성됩니다.구조 양자화 모듈과 시퀀스-구조 분리 주의가 있는 변환기 모델.

ProSST 모델 아키텍처

구조 정량화 모듈: 단백질 구조를 일련의 구조적 요소로 직렬화하고 정량화합니다.

구조 정량화 모듈의 목표는 단백질 잔류물의 국소적 구조를 개별적인 라벨로 변환하는 것입니다. 처음에, 로컬 구조는 사전 훈련된 구조 인코더에 의해 밀집 벡터로 인코딩됩니다. 이후, 사전 훈련된 k-평균 클러스터링 모델은 인코딩된 벡터를 기반으로 로컬 구조에 카테고리 레이블을 할당합니다. 마지막으로 클래스 라벨은 구조 토큰으로 잔류물에 할당됩니다.

* 전체 단백질 구조에 비해 국소 구조 설명이 더 세분화됨

구조적 정량화 과정

구체적으로, 이 연구에서는 기하학적 벡터 퍼셉트론(GVP)을 로컬 구조 인코더로 사용했습니다. 아래 그림 A에서 볼 수 있듯이, 이 연구에서는 GVP를 위치 인식 다층 퍼셉트론(MLP)을 포함하는 디코더와 통합하여 자동 인코더 모델을 형성했습니다. 전체 모델은 잡음이 제거된 사전 훈련된 표적 단백질을 사용하여 훈련되었고, CATH 데이터 세트로 훈련한 후 연구진은 인코더의 풀링된 출력의 평균만을 구조의 최종 표현으로 사용했습니다.

구조 인코더의 훈련

다음으로, 아래 그림 B에 표시된 것처럼, 이 연구의 로컬 구조 인코더는 단백질 구조를 나타내는 밀집 벡터를 개별 태그로 양자화합니다. 이를 위해 연구진은 구조 인코더 GVP를 사용하여 CATH 데이터 세트에 있는 모든 잔류물의 로컬 구조를 연속적인 잠재 공간에 내장한 다음, k-평균 알고리즘을 적용하여 이 잠재 공간에서 구조 코드북을 구성하는 K개의 중심을 식별했습니다.

로컬 구조 클러스터링 및 라벨링

마지막으로, 단백질 서열의 위치 i에 있는 잔류물에 대해, 우리는 먼저 국소적 구조를 기반으로 그래프 Gi를 구성한 다음, 구조 인코더 GVP를 사용하여 이를 연속 벡터 ri에 삽입합니다. 일반적으로 아래 그림 C에 표시된 것처럼 전체 단백질 구조를 일련의 구조 토큰으로 직렬화하고 양자화할 수 있습니다.

단백질 구조를 구조적 요소 서열로 변환

시퀀스-구조 분리 주의: 모델이 잔류물과 잔류물, 잔류물과 구조 간의 관계를 학습할 수 있도록 함

본 연구는 DeBerta 모델에서 영감을 얻었는데, 이 모델은 주의를 분리하여 잔류 서열(아미노산 서열)과 구조 서열, 그리고 상대적 위치 간의 관계를 학습하고, 이를 통해 모델이 단백질 서열과 구조 정보를 처리할 수 있도록 하고, 분리를 통해 모델의 성능과 안정성을 향상시키는 것을 목표로 합니다.

구체적으로, 단백질의 1차 서열에서 i번째 잔기의 경우 세 가지 항목으로 표현할 수 있습니다. Ri는 아미노산 서열 토큰의 인코딩을 나타내고 S는  아미노산의 로컬 구조 토큰 인코딩을 나타내는 반면 Pi|j  j 위치에서 i번째 잔여물의 토큰 인코딩. 아래 그림에서 보듯이, 본 연구의 시퀀스-구조 분리 주의 메커니즘은 잔여물-잔여물(R to R), 잔여물-구조(R to S), 잔여물-위치(R to P), 구조-잔여물(S to R), 위치-잔여물(P to R)의 5가지 유형을 포함합니다. 이를 통해 모델은 단백질 서열과 구조 사이의 복잡한 관계를 더욱 자세하게 파악할 수 있습니다.

ProSST 모델 아키텍처

ProSST는 성능 면에서 선두주자이며 구조 정보를 포함하면 모델 특성화 기능이 크게 향상됩니다.

이 연구에서는 ProSST가 제로샷 돌연변이 효과적 예측에 효과적인지 확인하기 위해 시퀀스 기반 모델, 구조-시퀀스 모델, 역 폴딩 모델, 진화 모델, 앙상블 모델을 포함한 다양한 상위 모델과 비교했습니다.

다음 표에서 보는 바와 같이, ProteinGYM 벤치마크에서 ProSST는 비교된 모든 모델보다 우수한 성능을 보이며 가장 뛰어난 안정성을 달성했습니다. 게다가 ProSST(-구조)는 다른 시퀀스 모델과 비슷한 성능을 보이는데, 이는 ProSST의 향상된 성능이 주로 구조 정보의 효과적인 통합에 기인한다는 것을 확인시켜 줍니다.
* ProSST(-structure)에는 구조 정보 모듈이 포함되어 있지 않습니다.

ProSST와 다른 모델의 제로샷 돌연변이 예측 성능 비교

지도 학습을 위해 본 연구에서는 열 안정성 예측(Thermostability), 금속 이온 결합 예측(Metal Ion Binding), 단백질 위치 예측(DeepLoc), GO 주석 예측(MF/BP/CC)의 네 가지 주요 단백질 하위 작업을 선택하고 ProSST를 ESM-2, ESM-1b, SaProt, MIF-ST, GearNet 등의 다른 단백질 언어 모델과 비교했습니다. 결과는 아래 표 2에 나와 있습니다.ProSST는 모든 모델 중에서 가장 좋은 성적을 거두었으며, 6가지 모든 부문에서 1위 5회, 2위 1회를 차지했습니다.

다운스트림 작업에 대한 감독 미세 조정 비교

단백질 언어 모델: 빅데이터와 생명과학을 연결하는 다리

ChatGPT와 같은 대규모 언어 모델이 출시된 이후, 대규모 단백질 서열을 기반으로 한 사전 학습된 모델(PLM)이 생명 과학 분야에서 인기 있는 연구 주제가 되었습니다. 현재 PLM 연구는 크게 두 가지 방향으로 나뉜다.

* 검색 향상 PLM: 이 유형의 모델은 MSATransformer 및 Tranception과 같은 훈련 또는 예측 단계에서 다중 시퀀스 정렬(MSA) 정보를 통합하여 예측 성능을 개선합니다.

* 다중 모드 PLM: 서열 정보만 사용하는 모델과 달리 다중 모드 PLM은 단백질 구조와 같은 추가 정보를 통합합니다. 예를 들어, 이 논문에서 설명하는 ProSST 모델은 구조적 토큰 서열을 아미노산 서열과 융합함으로써 모델의 표현 능력을 향상시킬 수 있습니다.

검색 강화 PLM 측면에서올해 4월, 복단대학과 다른 기관의 연구팀은 시퀀스 입력을 기반으로 하는 상동 단백질 검색 방법인 PLMSearch를 출시했습니다. 이 연구에서는 사전 훈련된 단백질 언어 모델을 사용하여 심층적인 표현을 얻고 구조적 유사성을 예측할 수 있습니다. 관련 연구는 Nature Communication에 게재되었습니다.

논문 링크:

https://doi.org/10.1038/s41467-024-46808-5

멀티모달 PLM 측면에서,저장대학의 천화준 교수 연구팀은 최근 단백질 최적화를 위한 새로운 잡음 제거 단백질 언어 모델(DePLM)을 제안했습니다. 이 모델은 진화 정보를 최적화하여 단백질 최적화 작업의 성능을 향상시킬 수 있습니다. 관련 결과는 최고의 컨퍼런스인 NeurIPS 24에 성공적으로 선정되었습니다.

자세한 내용: NeurIPS 24에 선정되었습니다! 저장대학교 연구팀은 SOTA 모델보다 돌연변이 효과를 더 잘 예측하는 새로운 단백질 언어 모델 DePLM을 제안했습니다.

이러한 획기적인 연구가 계속 등장함에 따라 PLM은 점차 생명 과학의 알려지지 않은 분야를 탐구하는 강력한 도구가 되고 있습니다. 단백질 기능 예측, 상호작용 예측, 표현형 연관 예측 등의 분야에서 큰 잠재력을 가지고 있으며, 질병 치료와 인간 삶의 향상을 위한 새로운 아이디어를 제공할 것으로 기대됩니다.