Meta AI 등은 반복적인 정보 교환을 가능하게 하고 여러 작업에서 SOTA 성능을 달성하는 새로운 단백질 동적 융합 특성화 프레임워크인 FusionProt를 제안했습니다.

特色图像

단백질은 생명 기능의 실행자이며, 그 신비는 두 가지 차원에서 드러납니다.하나는 아미노산이 양 끝을 연결하여 형성된 1차원(1D) 서열이고, 다른 하나는 서열이 접히고 감겨 형성된 3차원(3D) 구조입니다.이전 모델들은 일반적으로 ProteinBERT나 ESM과 같은 단백질 언어 모델(PLM)처럼 "서열 언어"를 숙달하거나, GearNet과 같은 3차원 단백질 표현 기술처럼 "구조 형태"를 분별하는 두 가지 중 하나에 특화되어 있었습니다. 모델이 두 가지를 결합하려고 시도할 때조차도, 종종 단순화되고 이어붙인 방식을 사용하여 각 전문가가 협력하기보다는 독립적으로 작업할 수 있도록 하는 것처럼 보입니다.

이러한 맥락에서 테크니온-이스라엘 공과대학과 Meta AI의 연구팀은 공동으로 단백질 표현 학습 프레임워크인 FusionProt를 제안했습니다.단백질의 1차원 서열과 3차원 구조에 대한 통합된 표현을 동시에 배우는 것을 목표로 합니다.본 연구는 단백질 언어 모델(PLM)과 3D 구조 그래프 사이의 적응형 연결고리로서 학습 가능한 퓨전 토큰을 혁신적으로 도입하여 두 모델 간의 반복적인 정보 교환을 가능하게 합니다. FusionProt은 다양한 단백질 관련 생물학적 과제에서 최첨단 성능을 달성했습니다.

관련 연구는 "FusionProt: 통합 단백질 표현 학습을 위한 서열 및 구조 정보 융합"이라는 제목으로 bioRxiv에 게재되었습니다.

연구 하이라이트:

* FusionProt 프레임워크는 1차원 및 3차원 모달리티를 효과적으로 통합하여 기존 구조 단편화 처리의 한계를 극복하고 단백질 기능과 상호작용 특성을 포착하는 정확도를 향상시킵니다.

* 학습 가능한 퓨전 토큰을 사용하여 단백질 언어 모델(PLM)과 단백질 3D 구조 그래프 간의 반복적인 정보 교환을 가능하게 하는 새로운 크로스 모달 퓨전 아키텍처입니다.

* FusionProt는 다양한 단백질 작업에서 최첨단 성능을 달성했으며, 사례 연구를 통해 실제 생물학적 시나리오에 적용할 수 있는 모델의 잠재력을 입증했습니다.

서류 주소:

https://go.hyper.ai/OXLYl

공식 계정을 팔로우하고 "FusionProt"라고 답글을 달면 전체 PDF를 받을 수 있습니다.

더 많은 AI 프런티어 논문:
https://hyper.ai/papers

공공 단백질 데이터베이스를 사용하여 체계적으로 데이터 세트를 구성합니다.

본 연구에서 연구팀은 공공 단백질 데이터베이스를 최대한 활용하고 체계적인 데이터 세트 구축, 엄격한 데이터 분할 전략, 다중 작업 평가 프레임워크를 통해 FusionProt이 다양한 단백질 이해 작업에서 효과적임을 확인했습니다.

사전 훈련 단계에서는 단백질 구조 데이터베이스(AlphaFold DB)를 핵심 데이터 소스로 사용했습니다.이 데이터베이스에는 AlphaFold2가 예측한 805,000개의 고품질 3차원 단백질 구조가 포함되어 있습니다. 연구진은 주로 다음과 같은 이유로 이 데이터셋을 선택했습니다. 첫째, AlphaFold2는 현재 단백질 구조 예측 분야에서 최첨단 모델로 인정받고 있으며, 예측 결과의 신뢰성이 높아 외부 실험 구조 데이터의 품질 및 가용성에 대한 의존도를 효과적으로 낮출 수 있습니다. 둘째, 통합 예측 구조를 사용하면 데이터 소스 간 일관성이 보장되어 SaProt 및 ESM-GearNet과 같은 기존 최첨단 연구와의 공정한 비교가 용이합니다.

연구팀은 세 가지 권위 있는 하위 과제에 걸쳐 모델의 성능을 체계적으로 평가했습니다. 이 과제들은 권위 있는 데이터 분할을 제공하고 Fmax를 통합 평가 지표로 사용하는 DeepFRI의 데이터셋을 사용하여 효소 기능 주석 및 유전자 온톨로지 추론에서 모델의 성능을 종합적으로 측정했습니다. 돌연변이 안정성 예측(MSP) 과제는 ESM-GearNet과 동일한 데이터셋 및 평가 프로토콜을 사용했으며, AUROC를 평가 지표로 사용하여 돌연변이가 단백질 복합체 안정성에 미치는 영향을 예측하는 모델의 능력을 평가했습니다.

"퓨전 토큰"을 기반으로 하는 반복적 정보 교환 메커니즘

FusionProt의 디자인은 핵심 아이디어를 중심으로 진행됩니다.학습 가능한 융합 토큰을 통해 단백질 서열과 구조 간의 양방향, 반복적 교차 모달 상호작용을 위한 다리 역할을 합니다.이를 통해 두 가지 유형의 정보가 심층적으로 융합되고 통합적으로 표현됩니다.

첫째, 이 프레임워크는 "시퀀스-구조" 이중 모달 병렬 인코딩 아키텍처를 기반으로 구축됩니다. 시퀀스 수준에서는 ESM-2를 단백질 언어 모델로 사용하여 아미노산 서열을 인코딩하고, 구조 수준에서는 GearNet 인코더를 구조 모델로 사용하여 단백질의 3차원 구조 다이어그램을 모델링합니다. 학습 가능한 융합 토큰은 학습 과정 동안 두 모달리티 사이를 동적으로 오가며 정보의 반복적인 교환 및 융합을 가능하게 합니다. 시퀀스 수준에서는 단백질 서열에 연결되며, 아미노산은 관련된 고유 융합 토큰을 쿼리하여 귀중한 정보를 추출하고 통합합니다. 구조 수준에서는 단백질 3차원 그래프에 추가되어 노드로 병합 및 연결됩니다. 구조 계층은 메시지 전달 신경망에 의해 처리되어 융합 토큰이 전역 공간 구조 정보를 통합할 수 있도록 합니다.

둘째, 이 프레임워크의 핵심 동력은 반복적 융합 알고리즘에 있습니다.이 과정은 융합 토큰을 업데이트된 시퀀스에 스플라이싱한 후, 구조 계층으로 전달하고 구조 그래프 네트워크에 새로운 노드로 입력하는 과정을 포함합니다. 업데이트된 융합 토큰은 다음 상호작용 라운드를 위해 시퀀스 계층으로 다시 전달됩니다. 이 반복적인 과정은 학습 가능한 선형 변환을 통해 다양한 모달 공간을 정렬하고 조정합니다. 이러한 반복적인 과정을 통해 모델 표현이 결합되어 통합되고 풍부한 단백질 표현을 형성합니다.

FusionProt 사전 학습 아키텍처 다이어그램

마지막으로 FusionProt은 Multiview Contrastive 학습을 사전 학습 목표로 사용합니다.연속된 부분 시퀀스를 무작위로 선택하고 15%의 그래프 간선을 숨겨 다양한 뷰를 구축합니다. 그런 다음 InfoNCE 손실 함수를 사용하여 잠재 공간의 표현을 정렬하고, 저차원 잠재 공간에 매핑될 때 관련 단백질 하위 구성 요소의 유사성을 유지합니다. 구현 과정에서 연구팀은 위에서 언급한 AlphaFold DB 데이터베이스에 대한 사전 학습을 수행했습니다. 사전 학습 과정에서 FusionProt은 2e-4의 학습률과 256개 단백질의 글로벌 배치 크기를 사용하여 50라운드의 학습을 수행했습니다. 긴 단백질 시퀀스를 수용하기 위해 입력 시퀀스는 1,024개의 토큰으로 잘렸습니다. 또한, 작업별 분류 헤드 예측을 추가하고 최신 SaProt 모델과 동일한 하이퍼파라미터를 평가하여 미세 조정을 수행했습니다. 모든 실험은 NVIDIA A100 80GB GPU 4개에서 수행되었으며, 단일 사전 학습 세션에는 약 48시간이 소요되었습니다.

기존 SOTA를 전면적으로 능가하는 융합 메커니즘은 상당한 효과를 발휘합니다.

이 연구는 다양한 하위 작업에서 광범위하게 테스트되었습니다.결과는 FusionProt 프레임워크가 여러 벤치마크에서 SOTA 성능을 달성한다는 것을 보여줍니다.실험 결과는 아래 그림과 같습니다.

EC 수 예측 평가에서 연구팀은 FusionProt의 성능을 11개의 기준 모델과 비교했습니다. 결과에 따르면 FusionProt은 가장 높은 Fmax = 0.904를 달성하여 시퀀스에만 의존하는 모델(예: ProtBERT-BFD, 0.838, ESM-2, 0.877)을 크게 능가했으며 구조 정보만 사용하는 GearNet(0.871)도 앞섰습니다. 동시에 이 두 가지 유형의 정보를 활용하려는 다른 방법(예: MIF-ST, ESM-GearNet 등)과 비교했을 때 여전히 선두를 달리고 있습니다. 이 결과는 단순히 한 모달리티를 다른 모달리티의 맥락으로 사용하는 것과 비교했을 때 FusionProt의 반복적 융합 메커니즘이 핵심적인 3차원 구조 정보를 더욱 완벽하게 유지할 수 있어 촉매 활성에 필요한 미묘한 구조적 차이를 더욱 정확하게 포착할 수 있음을 보여줍니다.

GO 용어 예측 평가에서 FusionProt은 생물학적 과정, 분자 기능, 세포 구성 요소의 세 가지 하위 작업에서 가장 좋은 결과를 달성하여 시퀀스와 구조의 공동 모델링에서 학습 가능한 융합 토큰의 효과를 다시 한번 입증했습니다.

다양한 기준 방법에서 EC 및 GO 예측의 평가 결과 비교

연구팀은 돌연변이 안정성 예측에 대한 평가도 수행했습니다. 실험 결과, FusionProt은 모든 평가 방법 중 가장 높은 AUROC를 달성했으며, 통계적으로 유의미했습니다(p < 0.05). 이러한 성능은 현재 최첨단 방법인 GVP 대비 5.11 TP3T만큼 크게 향상되었으며, 이는 장거리 서열-구조 의존성 통합에 있어 FusionProt의 반복적 융합 메커니즘의 효율성을 보여줍니다. 또한, FusionProt은 학습 가능한 융합 토큰을 통해 양방향 교차 모달 상호작용을 가능하게 하여 단백질 표현을 더욱 풍부하고 생물학적으로 근거 있게 만듭니다.

돌연변이 안정성 예측을 위한 다양한 방법의 평가 결과

FusionProt의 핵심 설계의 효과를 평가하기 위해 연구팀은 추가적인 절제 실험을 수행했습니다. 연구팀은 다양한 융합 주입 주파수에서 시스템을 테스트한 결과, 융합 마커가 표준 주파수에서 시퀀스 인코더와 구조 인코더 간에 여러 차례 상호작용을 수행했을 때 최적의 성능을 달성하는 반면, 상호작용 빈도를 낮추면 성능이 크게 저하됨을 확인했습니다.이는 빈번한 정보 교환이 여러 모달 간의 종속성을 파악하는 데 매우 중요하다는 것을 보여줍니다.

마지막으로, 생물학적 사례 분석에서 FusionProt은 기존 방식으로는 처리하기 어려운 RNA 중합효소 ω 소단위체 단백질의 EC 수를 성공적으로 예측했습니다. 이 결과는 ESM-2와 같은 모델에서는 완전히 실패했으며, 학습된 표현 방식이 복잡한 "구조-기능" 관계를 포착하고 약물 개발 및 단백질 기능 분석에 폭넓은 응용 가능성을 보여줄 수 있음을 더욱 입증했습니다.

크로스 모달 융합은 명백한 추세가 되었습니다.

FusionProt은 단백질 표현 학습의 새로운 길을 열었으며, 단백질의 "언어"와 "형태"가 서로 소통해야 한다는 것을 보여주었습니다. 생명과학 분야에서 인공지능의 지속적인 발전과 함께, 교차 모달 융합은 분명한 추세로 자리 잡았습니다.

웨스트레이크 대학교는 구조 인식 어휘 개념을 제안하고, 아미노산 잔기 토큰과 구조 토큰을 결합하여 약 4천만 개의 단백질 서열 및 구조 데이터셋을 기반으로 대규모 범용 단백질 언어 모델인 SaProt을 학습시켰습니다. 이 모델은 10가지 주요 하위 과제에서 기존 기준 모델을 전반적으로 능가하는 성능을 보였습니다. 관련 연구인 "SaProt: 구조 인식 어휘를 활용한 단백질 언어 모델링"은 ICLR 2024에 선정되었습니다.


서류 주소:
https://openreview.net/forum?id=6MRm3G4NiU

몬트리올 대학교와 밀라(Mila)가 공동 발표한 "구조 정렬 단백질 언어 모델(Structure-Aligned Protein Language Model)"이라는 제목의 연구는 대조 학습을 사용하여 구조 정보를 통합하는 구조 정렬 단백질 언어 모델을 제안합니다. 이 모델은 모델의 예측 구조 토큰을 최적화함으로써 단백질 접촉 예측 작업의 성능을 크게 향상시킵니다.


서류 주소:
https://arxiv.org/abs/2505.16896

2023년부터 2024년까지 AI4S 분야의 고품질 논문과 심층 해석 기사를 클릭 한 번으로 받아보세요⬇️

Meta AI 등은 반복적인 정보 교환을 가능하게 하고 여러 작업에서 SOTA 성능을 달성하는 새로운 단백질 동적 융합 특성화 프레임워크인 FusionProt를 제안했습니다. | 뉴스 | HyperAI초신경