8k 길이의 시퀀스 모델링, 단백질 언어 모델 Prot42는 타겟 단백질 시퀀스만을 사용하여 높은 친화도의 결합제를 생성할 수 있습니다.

단백질 결합제(항체 및 억제 펩타이드 등)는 질병 진단, 영상 분석, 표적 약물 전달과 같은 핵심 시나리오에서 대체 불가능한 역할을 합니다.전통적으로, 고도로 특이적인 단백질 결합제의 개발은 파지 디스플레이와 지향성 진화와 같은 실험 기술에 크게 의존해 왔습니다.그러나 이러한 방법은 일반적으로 막대한 자원 소모와 긴 연구 개발 주기라는 과제에 직면하며, 단백질 서열 조합의 복잡성으로 인한 본질적인 병목 현상으로 인해 제한을 받습니다.
인공지능의 발전으로 단백질 언어 모델(PLM)은 단백질 서열과 기능 간의 관계를 이해하는 중요한 도구로 자리 잡았습니다. 단백질 결합제 설계의 경우, PLM은 언어 모델의 생성 능력을 기반으로 표적 단백질 서열을 기반으로 높은 결합 친화도를 갖는 리간드 단백질이나 항체 단편을 직접 설계할 수 있습니다. 그러나 복잡한 결합 인터페이스와 긴 단백질 결합제 설계에서 긴 컨텍스트 모델링 기능과 진정한 생성 기능을 모두 갖춘 PLM이 부족하다는 과제도 있습니다. 상당한 기술적 격차가 존재합니다.
이를 바탕으로 아랍에미리트 아부다비의 Inception AI Institute와 미국 실리콘밸리의 Cerebras Systems의 공동 연구팀은단백질 서열 정보에만 의존하고 3차원 구조 입력을 필요로 하지 않는 최초의 PLM 제품군인 Prot42가 제안되었습니다.이 모델은 자기회귀와 디코더 전용 아키텍처의 생성 능력을 활용합니다.구조적 정보가 없는 상황에서도 높은 친화도의 단백질 결합제와 서열 특이적 DNA 결합 단백질을 생성할 수 있습니다.Prot42는 PEER 벤치마크, 단백질 바인더 생성, DNA 시퀀스 특정 바인더 생성 실험에서 좋은 성능을 보였습니다.
관련 연구의 제목은 "Prot42: 타겟 인식 단백질 결합제 생성을 위한 새로운 단백질 언어 모델군"이며 arXiv에 사전 인쇄본으로 게재되었습니다.
연구 하이라이트* Prot42는 초기 1,024개 아미노산에서 8,192개 아미노산으로 점진적으로 확장되는 점진적 맥락 확장 학습 전략을 사용합니다. * PEER 벤치마크 테스트에서 Prot42는 단백질 기능 예측, 세포 내 위치 파악, 상호작용 모델링 등 14가지 과제에서 우수한 성능을 보였습니다. * 3D 구조에 의존하는 AlphaProteo와 달리, Prot42는 결합제 생성을 위해 표적 단백질 서열만 필요합니다.

서류 주소:
더 많은 AI 프런티어 논문:
https://go.hyper.ai/UuE1o
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 3개의 대규모 데이터 세트가 모델 개발 및 학습을 지원합니다.
본 연구에서는 몇 가지 핵심 데이터 세트를 사용하여 모델의 성능을 훈련하고 평가했습니다. 이 데이터 세트는 광범위한 단백질 서열 정보뿐만 아니라 단백질-DNA 상호작용 데이터까지 포함하여 Prot42에 대한 풍부한 훈련 자료를 제공합니다.
단백질-DNA 인터페이스 데이터베이스(PDIdb) 2010
연구진은 표적 DNA 서열에 결합할 수 있는 단백질을 설계하기 위해 PDIdb 2010 데이터 세트를 사용했습니다.이 데이터 세트에는 922개의 고유한 DNA-단백질 쌍이 포함되어 있으며, 특정 DNA 시퀀스에 결합하는 단백질을 생성하는 Prot42의 능력을 훈련하고 평가하는 데 사용되었습니다.연구진은 4가지 DNA-단백질 모델을 평가하기 위해 1TUP, 1BC8, 1YO5, 1L3L, 2O4A, 1OCT, 1A1F, 1JJ6를 포함한 다양한 PDB 구조에서 DNA 조각을 추출했습니다.
UniRef50 데이터 세트
Prot42 모델의 사전 학습 데이터 세트는 주로 UniRef50 데이터베이스에서 가져왔습니다.이 데이터베이스에는 광범위한 생물학적 종과 단백질 기능을 포괄하는 6,320만 개의 아미노산 서열이 포함되어 있습니다.이러한 시퀀스를 클러스터링하고, 유사도가 50%를 초과하는 시퀀스를 그룹화하여 데이터 중복을 줄이고 학습 효율성을 향상시킵니다.
연구팀은 Prot42를 훈련시키기 전에 UniRef50 데이터 세트를 사전 처리했습니다.이들은 20가지 표준 아미노산의 어휘를 사용하여 표시됩니다.X토큰을 사용하여 아미노산 잔류물을 나타냅니다(X는 흔하지 않거나 모호한 아미노산 잔류물을 표시하는 데 사용됩니다).
데이터 전처리 단계에서연구팀은 최대 1,024개 토큰의 컨텍스트 길이를 갖는 시퀀스를 처리하고 이보다 긴 시퀀스를 제외하여 최종적으로 5,710만 개의 시퀀스로 구성된 필터링된 데이터 세트를 얻었습니다.초기 충진 밀도는 27%입니다. 연구팀은 데이터 활용도와 계산 효율을 높이기 위해 가변 시퀀스 길이(VSL) 충진 전략을 채택했습니다.우리는 고정된 컨텍스트 길이 내에서 토큰의 점유율을 극대화했고, 최종적으로 데이터 세트를 패딩된 시퀀스 1,620만 개로 줄였습니다.충전 효율은 96%에 도달합니다.

STRING 데이터베이스
STRING 데이터베이스는 포괄적인 단백질-단백질 상호작용 데이터베이스입니다.실험 데이터, 계산 예측, 그리고 텍스트 마이닝 결과를 통합하여 단백질 상호작용에 대한 신뢰도 점수를 제공합니다. 단백질 결합제를 생성하도록 Prot42를 훈련시키기 위해, 연구팀은 STRING 데이터베이스에서 신뢰도 점수가 90% 이상인 단백질 상호작용 쌍을 선별하여 훈련 데이터의 높은 신뢰성을 확보했습니다.더욱이, 관리하기 쉬운 단일 도메인 결합 단백질에 초점을 맞추기 위해 시퀀스 길이는 250개 아미노산으로 제한되었습니다.검사 후 최종 데이터 세트에는 74,066개의 단백질-단백질 상호작용 쌍이 포함되고, 59,252개의 샘플을 포함하는 훈련 세트 D(train)(pb)와 14,814개의 샘플을 포함하는 검증 세트 D(val)(pb)가 포함됩니다.
모델 아키텍처: 자기회귀 디코더 아키텍처에서 파생된 2가지 주요 변형
본 논문에서 언급된 Prot42는 아미노산 서열을 하나씩 생성하고 이전에 생성된 아미노산을 이용하여 다음 아미노산을 예측하는 자기회귀 디코더 아키텍처 기반의 PLM입니다. 이 아키텍처를 통해 모델은 서열의 장거리 의존성을 포착할 수 있습니다.이 알고리즘은 대규모의 레이블이 지정되지 않은 단백질 서열 데이터베이스에서 직접 풍부한 표현을 학습하여, 알려진 단백질 서열의 엄청난 수와 상대적으로 적은 비율(<0.3%)의 단백질 서열 간의 격차를 효과적으로 메웁니다.동시에 이 모델은 여러 개의 Transformer 레이어를 포함하고 있으며, 각 레이어에는 다중 헤드 셀프 어텐션 메커니즘과 시퀀스의 복잡한 패턴을 포착하기 위한 피드포워드 신경망이 포함되어 있습니다.

이 디자인은 자연어 처리, 특히 LLaMA 모델의 획기적인 발전에서 영감을 받았습니다. Prot42는 대규모의 표지되지 않은 단백질 서열에 대한 사전 학습을 통해 단백질의 진화적, 구조적, 기능적 정보를 수집하여 높은 친화도의 단백질 결합제를 생성할 수 있습니다.
이를 바탕으로,연구자들은 2개의 모델 변형을 사전 훈련했습니다.즉, Prot42-B와 Prot42-L입니다.
* 프로트42-B:기본 버전에서 이 모델은 5억 개의 매개변수를 가지며 최대 1,024개 아미노산의 시퀀스 길이를 지원합니다.
* 프로트42-L:대용량 버전은 11억 개의 모델 매개변수를 갖고 있으며 최대 1,024개 아미노산의 시퀀스 길이를 지원합니다.Prot42-L의 컨텍스트 길이는 1,024개 아미노산에서 8,192개 아미노산으로 점차 확장되었습니다.이 과정에서 점진적으로 증가하는 컨텍스트 길이와 일정한 배치 크기(100만 개의 비어 있는 토큰)를 사용하여 긴 시퀀스를 처리할 때 모델의 안정성과 효율성을 보장했으며, 긴 시퀀스와 복잡한 단백질 구조를 처리하는 모델의 능력을 크게 향상시켰습니다.Prot42-L에는 각각 32개의 어텐션 헤드가 있는 24개의 숨겨진 레이어가 포함되어 있습니다.은닉층의 차원은 2,048입니다.
실험 결과: 6가지 과제 모두에서 큰 잠재력이 나타났습니다.
연구자들은 하위 작업에서 검증하기 전에 Prot42 모델의 성능을 평가하기 위해 자기회귀 언어 모델을 평가하기 위한 표준 매개변수 복잡도(PPL) 측정, 즉 다양한 맥락 길이에서 Prot42 모델의 성능을 사용했습니다.모든 모델은 1,024개 토큰에서 비교적 높은 복잡도를 보였지만, 2,048개 토큰에서는 약 6.5로 크게 향상되었습니다.결과는 기본 모델과 더 짧은 컨텍스트에 맞춰 미세 조정된 모델이 각각의 최대 컨텍스트 길이에 걸쳐 유사한 성능 패턴을 나타냄을 보여줍니다. 8k 컨텍스트 모델의 성능이 특히 두드러집니다. 중간 길이 시퀀스(2,048~4,096개 토큰)의 복잡도가 약간 더 높지만, 최대 8,192개 토큰의 시퀀스를 처리할 수 있으며 최대 길이에서 최소 복잡도 5.1을 달성합니다.토큰이 4,096개를 넘어서면서 복잡도 곡선은 하향 추세를 보입니다.아래 그림과 같습니다.

문맥 길이가 늘어남에 따라 모델의 PPL은 점차 감소하는데, 이는 모델이 긴 시퀀스를 처리하는 능력이 크게 향상되었음을 나타냅니다.특히, 8K 컨텍스트 모델은 가장 낮은 PPL을 달성하여 확장된 컨텍스트 창을 효과적으로 활용하여 단백질 서열의 장거리 종속성을 포착할 수 있음을 나타냅니다.확장된 컨텍스트 창은 단백질 서열 모델링 분야에서 중요한 진전으로, 복잡한 단백질과 단백질-단백질 상호작용을 보다 정확하게 표현할 수 있게 해줍니다. 이는 효과적인 단백질 결합제를 생성하는 데 중요합니다.
일련의 엄격한 실험 평가를 통해Prot42는 여러 핵심 작업에서 뛰어난 성능을 보여주었습니다.단백질 결합제 생성과 특정 DNA 서열에 결합하는 단백질 설계에 효과적인 것으로 입증되었습니다.
단백질 기능 예측
PEER 벤치마크 테스트에서 Prot42 모델은 형광 예측, 안정성 예측, β-락타메이즈 활성 예측, 용해도 예측을 포함한 여러 단백질 기능 예측 과제에서 우수한 성능을 보였습니다. 기존 모델과 비교했을 때,Prot42는 안정성 예측, 용해도 예측 및 β-락타마제 활성 예측 측면에서 상당한 이점을 얻었습니다.이는 고해상도 단백질 공학 작업에서 큰 잠재력을 가지고 있음을 나타냅니다.
단백질 세포 내 위치 예측
연구진은 각 단백질 서열을 32×2048 크기의 고차원 벡터로 표현하고, Prot42-L 모델을 전체 단백질 서열에 임베딩하여 계산을 수행했습니다. 임베딩과 구획의 품질 차이를 직관적으로 평가하기 위해, 연구진은 t-분포 확률적 이웃 임베딩(t-SNE)을 적용하여 차원을 축소함으로써 단백질 그룹의 시각화를 명확하게 했습니다.Prot42는 단백질 세포 내 위치 예측 작업에서 좋은 성능을 보이며, 그 정확도는 기존의 고급 모델과 비슷한 수준이라는 것이 검증되었습니다.연구팀은 시각적 분석을 통해 Prot42 모델이 단백질의 세포 내 위치 특성을 포착하는 데 효과적이라는 것을 추가로 검증했습니다.

단백질 구조 예측
단백질 구조 예측 과제에서,Prot42 모델은 접촉 예측, 접힘 분류, 2차 구조 예측에서 우수한 결과를 얻었습니다.이러한 결과는 Prot42 모델이 단백질 구조의 미묘한 차이를 포착할 수 있음을 나타내며, 복잡한 생물학적 상호작용 모델링과 제약 응용 분야에 대한 강력한 지원을 제공합니다.
단백질-단백질 상호작용 예측
단백질-단백질 상호작용 및 단백질-리간드 상호작용 예측 작업에서 Prot42 모델은 높은 정확도와 신뢰도를 보였습니다.연구진은 Chem42를 사용하여 화학물질 삽입 벡터를 생성하고 이를 ChemBert와 비교했습니다.또 다른 화학적 특성 분석 모델로서, 그럼에도 불구하고 성능 지표는 기존 방법보다 우수하며 Chem42를 사용하여 얻은 결과에 근접합니다. 특히 Chem42를 사용하여 화학적 임베딩을 생성할 때 예측 결과는 전문 화학 모델의 예측 결과와 유사합니다.이는 Prot42가 화학 정보를 결합하는 데 있어 우수한 확장성을 가지고 있음을 나타냅니다.약물 설계에 대한 강력한 지원을 제공합니다.

단백질 결합제 생성
단백질 결합제 생성에 있어 Prot42 모델의 효과를 엄격하게 평가하기 위해, 연구진은 이 모델을 단백질 결합제 예측을 위해 특별히 설계된 고급 모델인 AlphaProteo와 비교했습니다. 실험 결과는 다음과 같았습니다.Prot42 모델은 치료적으로 관련성이 있는 여러 표적에 대해 강력한 예측 친화력을 갖는 결합제를 생성했습니다.특히 IL-7Rα, PD-L1, TrkA 및 VEGF-A와 같은 표적에 대해Prot42 모델은 AlphaProteo 모델보다 훨씬 더 나은 성능을 보였습니다.이러한 결과는 아래 그림에서 볼 수 있듯이 Prot42 모델이 단백질 결합제 생성에 상당한 이점이 있음을 나타냅니다.


DNA 서열 특이적 바인더 생성
DNA 서열 특이적 결합제 생성 실험에서도 Prot42는 놀라운 결과를 보였습니다. 실험 결과는 다음과 같습니다.Prot42 모델은 유전자 임베딩과 단백질 임베딩의 다중 모드 전략을 결합하여 표적 DNA 서열에 특이적으로 결합하고 높은 친화성을 나타내는 단백질을 생성할 수 있습니다.DeepPBS 모델로 평가된 결합 특이성은 높았습니다. 이러한 결과는 Prot42 모델이 DNA 서열 특이적 결합제 생성에도 큰 잠재력을 가지고 있으며, 유전자 조절 및 유전체 편집 응용 분야에 새로운 도구를 제공할 수 있음을 시사합니다.

단백질 설계에서 인공지능의 획기적인 발전과 혁신
생명공학과 인공지능의 긴밀한 통합으로 단백질 설계라는 최첨단 분야는 혁신적인 변화를 겪고 있습니다. 생명 활동의 핵심 요소인 단백질의 구조 및 기능 분석은 과학 연구에서 항상 난제로 여겨져 왔으며, AI 기술의 도입은 이 복잡한 퍼즐의 해결을 가속화하고 신약 개발 및 효소 공학적 변형과 같은 새로운 시나리오를 제시하고 있습니다.
최근 몇 년 동안 AI 기술은 다시 획기적인 발전을 이루었으며, 생성 AI를 중심으로 한 새로운 기술은 단백질 설계를 '창세기' 단계로 끌어올리고 있습니다.
미주리 대학의 쉬 동 교수 팀은 다중 뷰 대비 학습을 도입하여 단백질 서열과 3차원 구조 정보를 통합된 잠재 공간에 정렬하는 구조 인식 단백질 언어 인식 모델(S-PLM)을 제안했습니다.우리는 AlphaFold가 예측한 구조적 정보를 처리하고 이를 ESM2 기반 시퀀스 임베딩과 융합하여 구조 인식 PLM을 생성하기 위해 Swin Transformer를 사용합니다."S-PLM: 서열과 구조 간의 대조 학습을 통한 구조 인식 단백질 언어 모델(S-PLM: Structure-Aware Protein Language Model via Contrastive Learning Between Sequence and Structure)"이라는 논문이 Advanced Science에 게재되었습니다. S-PLM은 단백질 서열을 통합된 잠재 공간에서 3차원 구조에 맞춰 정렬함으로써 구조 정보를 서열 표현에 효과적으로 통합합니다. 또한 효율적인 미세 조정 전략을 탐구하여 다양한 단백질 예측 작업에서 탁월한 성능을 발휘하도록 함으로써 단백질 구조 및 기능 예측 분야에서 중요한 진전을 이루었습니다.
서류 주소:
https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202404212
또한, 칭화대학교 연구팀을 비롯한 연구진은 통합 단백질 언어 모델 xTrimoPGLM을 제안했습니다. 이는 1,000억 개의 매개변수로 확장 가능한 통합 사전 학습 프레임워크이자 기본 모델로, 이해 및 생성(또는 설계)을 포함한 다양한 단백질 관련 작업을 위해 설계되었습니다. 이 모델은 일반 언어 모델(GLM)을 양방향 주의 및 자기회귀 목표의 근간으로 활용함으로써 기존의 인코더 전용 또는 인과적 디코딩 전용 PLM과 차별화됩니다. 본 연구는 초대규모 PLM의 통합 이해 및 생성 사전 학습을 탐구하고, 단백질 서열 설계에 대한 새로운 가능성을 제시하며, 더 광범위한 단백질 관련 응용 분야의 개발을 촉진했습니다. 이 연구는 네이처(Nature) 하위 저널에 "xTrimoPGLM: 단백질 언어 해독을 위한 통합 1,000억 개의 매개변수 사전 학습 변환기"라는 제목으로 게재되었습니다.
서류 주소:
https://www.nature.com/articles/s41592-025-02636-z
Prot42의 획기적인 발전은 기술적 진보일 뿐만 아니라, 생명과학 분야에서 "데이터 기반 + AI 설계" 모델이 점진적으로 발전하고 있음을 보여줍니다. 연구팀은 향후 Prot42가 생성한 바인더를 실험을 통해 검증하고, 실제 기능 시험을 통해 계산적 평가를 보완할 계획입니다. 이를 통해 실제 응용 분야에서 모델의 유용성을 강화하고 예측 정확도를 향상시켜 AI 기반 시퀀스 생성과 실험적 생명공학 간의 격차를 해소할 것입니다.
참고문헌:
1.https://arxiv.org/abs/2504.04453
2.https://mp.weixin.qq.com/s/SDUsXpAc8mONsQPkUx4cvA
3.https://mp.weixin.qq.com/s/x7_Wnws35Qzf3J0kBapBGQ
4.https://mp.weixin.qq.com/s/SDUsXpAc8mONsQPkUx4cvA