HyperAI초신경

모델 매개변수는 RFdiffusion보다 5배 더 높습니다! NVIDIA와 다른 회사들이 SOTA 성능을 기반으로 처음부터 설계된 단백질 백본인 Proteina를 출시

特色图像

지난 세기부터 과학자들은 아미노산 서열을 기반으로 단백질 구조를 예측하는 연구에 전념해 왔으며, 아미노산을 사용하여 새로운 단백질을 만들고 생명의 청사진을 구축하려는 비전을 가지고 있었습니다. 그러나 이 위대한 사명은 오랜 시간에 걸쳐 천천히 진행되었습니다. 최근 몇 년 동안 AI 기술이 급속도로 발전하면서 강력한 추진력을 얻어 급속한 발전 궤도에 들어섰습니다.

2016년 이래, Molecular Heart의 창립자이자 수석 과학자인 쉬 진보와 다른 사람들이 시작한 기술 혁명이 이 분야를 조용히 변화시켜 왔습니다. 그들은 구조 예측 분야에 딥 레지듀얼 네트워크 ResNet 아키텍처를 도입하는 데 앞장섰습니다.단백질 잔류물 접촉 예측이 상당히 개선되었습니다.이 획기적인 발견은 AI와 단백질 설계의 긴밀한 통합을 위한 튼튼한 토대를 마련했습니다. 그 이후로 많은 과학 연구팀이 이를 따르고 이 분야에서 열심히 연구했습니다. 공진화와 딥러닝을 결합한 알고리즘이 많이 생겨났습니다. 그중에서도 2024년 노벨 화학상 수상자인 데이비드 베이커와 알파폴드의 주요 업적은 더욱 유명해졌으며, 이 분야 연구를 새로운 차원으로 끌어올렸습니다.

그러나 이전 연구를 검토해보면,무조건 단백질 구조 생성 모델은 종종 구조의 수가 50만 개를 넘지 않는 소규모 데이터 세트에 대해서만 학습됩니다.게다가 이러한 모델의 신경망은 합성 과정에서 효과적인 제어 방법이 부족하고, 자연어, 이미지 또는 비디오 생성 등의 분야에서 생성 모델과 비교했을 때 규모와 성능 면에서 모두 큰 차이가 있습니다.

자연어, 이미지, 비디오 생성 분야에서 사람들은 확장 가능한 신경망 아키텍처, 대규모 학습 데이터 세트, 정교한 의미 제어로 인해 지구를 뒤흔드는 변화와 주요 혁신을 목격했습니다. 이로 인해 연구자들은 깊이 생각하게 되었습니다. 이 분야의 성공적인 경험에서 배우고 단백질 구조 확산 및 흐름 모델에 대해서도 유사한 확장과 제어를 수행하여 단백질 설계 분야에서 질적 도약을 이룰 수 있을까요?

기쁜 점은 NVIDIA가 최근 Mila, 퀘벡 인공지능 연구소, 몬트리올 대학교, 매사추세츠 공과대학교와 협력하여 새로운 유형의 대규모 흐름 단백질 백본 생성기인 Proteina를 개발했다는 것입니다. Proteina는 RFdiffusion 모델보다 매개변수 수가 5배 더 많고, 학습 데이터를 2,100만 개의 합성 단백질 구조로 확장했습니다.우리는 새로운 단백질 백본 설계에서 최첨단 성과를 달성하고, 최대 800개 잔기라는 전례 없는 길이의 다양하고 설계 가능한 단백질을 생성합니다.

"Proteina: Scaling Flow-based Protein Structure Generative Models"라는 제목의 관련 연구 결과가 ICLR 2025 Oral에 선정되었습니다.


서류 주소:

https://openreview.net/forum?id=TVQLu34bdw&nesting=2&sort=date-desc

학술적 정보 공유 이벤트를 추천해 주세요. 최신 Meet AI4S 라이브 방송 초대는 3월 7일 오후 12시입니다.화중과학기술대학교 황홍 준교수, 상하이인공지능연구소 AI과학센터 청년연구원 주동잔, 상하이교통대학교 자연과학연구소 조교수 주빙신개인적 성과를 소개하고 과학 연구 경험을 공유하세요.

AI는 단백질 설계를 강화합니다: 구조에서 서열까지, 예측에서 설계까지

생명과학 연구 과정에서 단백질 설계는 항상 매우 중요한 위치를 차지해 왔습니다. 오랫동안, 엄청난 양의 단백질 서열 데이터로부터 규칙과 패턴을 학습하는 것은 과학 연구자들이 겪는 골치 아픈 문제였습니다. 다행히도 AI 기술의 지원으로 이 분야는 반전의 선두에 섰습니다.

예를 들어,DeepMind가 출시한 AlphaFold3는 DNA, RNA 및 소분자 상호작용의 모델링을 개선합니다.단백질 복합체의 구조를 정확하게 예측하는 능력은 세포 내 단백질의 복잡한 상호작용을 이해하는 데 큰 도움이 됩니다. Meta는 언어 모델과 구조 예측을 결합한 ESMFold를 출시했습니다.이를 통해 예측 속도가 크게 향상되어 연구자들이 단백질 구조 정보를 더욱 효율적으로 얻을 수 있습니다.Microsoft의 최신 BioEMU-1은 단백질 구조의 동적 변화를 시뮬레이션합니다.이는 단백질의 이동 메커니즘과 약물 설계에 대한 심층적인 탐구를 위한 새로운 길을 열었습니다.

이러한 기반을 바탕으로 AI는 점차 단백질 구조 설계에 침투하기 시작했습니다.

단백질 구조 설계는 주로 알려진 단백질 구조를 기반으로 하며, 다양한 방법을 통해 이러한 구조를 변형하고 최적화하여 특정 기능이나 특성을 가진 단백질을 얻습니다. 단백질의 기능은 주로 3차원 구조에 의해 결정되므로,구조적 분포를 직접 모델링하는 방법이 점차 주류를 이루고 있으며, 그 중에서도 확산 모델이나 흐름 모델을 기반으로 한 알고리즘이 특히 뛰어납니다.예를 들어, Generate Bio가 개발한 Chroma 모델은 정밀한 단백질 설계를 위한 확산 모델링을 대규모로 적용한 최초의 사례입니다."자연에 전혀 존재하지 않는 단백질"을 생산할 수 있습니다.

또한,데이비드 베이커가 제안한 RFdiffusion은 RoseTTAFold 구조 예측 네트워크를 미세 조정하여 특정 기능을 가진 단백질 골격을 생성할 수 있습니다.이는 기능성 단백질의 설계를 위한 정확한 구조적 기초를 제공합니다. 컬럼비아 대학과 러트거스 대학의 연구자들이 제안한 Genie2는 훈련 데이터를 AFDB로 확장합니다.여러 개의 독립적인 기능 부위를 가진 복잡한 단백질을 생성할 수 있습니다.

단백질의 구조와 서열은 서로 연관되어 있으며, 구조가 기능을 결정하고, 서열이 구조의 기초가 된다는 것은 잘 알려진 사실이다. AI 기술로 인해 단백질 구조가 바뀌면 단백질 서열도 필연적으로 바뀌게 됩니다. 단백질 서열 설계는 주로 알려진 단백질 구조를 기반으로 계산 및 예측 방법을 통해 구조에 맞는 아미노산 서열을 설계합니다.

현재 AI 단백질 서열 설계는 크게 두 가지 유형으로 나뉜다.하나는 고정된 백본 단백질 서열 설계 도구입니다.예를 들어, 스탠포드 대학에서 출시한 ESM-IF는 사전 훈련과 미세 조정을 결합하는 패러다임을 채택하여 구조적 지식을 기능적 단백질 설계에 영리하게 통합하여 특정 기능을 가진 단백질의 설계에 대한 강력한 지원을 제공합니다. 데이비드 베이커가 제안한 ProteinMPNN은 그래프 신경망을 기반으로 하며, 주쇄 구조에 따라 일치하는 아미노산 서열을 생성할 수 있어 단백질 서열 설계를 위한 효율적이고 정확한 방법을 제공합니다.

다른 하나는 기능 지향적인 단백질 서열 설계 도구입니다.예를 들어, Salesforce가 출시한 ProGen은 특정 기능적 요구 사항에 따라 단백질 서열을 사용자 정의할 수 있는 조건부 생성 모델로, 기능적 단백질 설계를 위한 매우 유연한 솔루션을 제공합니다. 스페인 지로나 대학에서 출시한 ZymCTRL은 사전 훈련된 언어 모델을 미세 조정하여 기능 지향적 설계를 달성하고, 단백질 기능의 정확한 조절을 위한 강력한 지원을 제공합니다. 중국과학원 산하 톈진산업생물기술연구소에서 제안한 P450확산은 확산 모델을 기반으로 특정 촉매 기능을 가진 P450 효소 변형체를 생성하여 효소공학 분야에 새로운 개발 기회를 가져왔습니다.

*자세한 보고서를 보려면 여기를 클릭하세요: 촉매 용량이 3.5배 증가했습니다! 중국과학원 연구팀은 P450 확산 모델을 기반으로 P450 효소 de novo 설계 방법을 개발했습니다.

그러나 다른 세 가지 유형의 단백질 모델과 비교하면 현재 단백질 구조 설계 모델의 규모는 일반적으로 작습니다. 구체적으로 AlphaFold 3의 학습 세트 크기는 1억에 가깝고, BioEmu-1은 사전 학습 단계에서 AFDB 데이터베이스의 2억 개 이상의 단백질 서열을 사용하고, ProGen의 매개변수 수는 최대 12억 개에 달합니다. 그러나 단백질 구조 설계 분야에서 뛰어난 대표 기업인 RFdiffusion은 Protein Data Bank(PDB) 저장소에 있는 수만 개의 실제 단백질 구조로부터 얻은 학습 데이터만을 사용하며, 생성할 수 있는 구조의 총 길이는 600개 아미노산 잔기에 불과합니다. Genie2의 가장 큰 데이터 세트는 약 60만 개의 합성 구조 단백질에 불과합니다.

이러한 맥락에서,업계에서는 더 큰 학습 데이터 볼륨, 더 긴 총 구조 길이, 더 강력한 제어성을 갖춘 단백질 구조 설계 모델인 Proteina의 탄생을 간절히 기대하고 있습니다.

Proteina 모델: AI 기술을 활용한 단백질 설계의 새로운 혁신

Proteina는 흐름 기반 단백질 구조 모델로서, 시각적 영역의 확산 변환기에서 영감을 얻은 혁신적인 확장 가능 비등가형 변환기 아키텍처를 사용합니다. 계산 비용이 많이 드는 삼각형 계층에 의존하지 않고도 최고의 성능을 달성할 수 있습니다.이를 통해 Proteina는 최대 2,100만 개의 단백질 구조에 대해 학습할 수 있으며, 이는 학습 데이터가 35배 증가한 것과 같으며, 궁극적으로 최대 800개 잔류물의 백본을 생성할 수 있습니다.디자인성과 다양성을 유지하면서도 이전 작품들보다 훨씬 나아졌습니다.

Proteina 워크플로

아래 그림과 같이, 본 연구에서는 주로 Genie2가 사용하는 Foldseek AFDB 클러스터링 DFS 데이터셋을 활용하였다.이 데이터 세트는 약 60만 개의 합성 구조 단백질을 다룹니다.동시에 이 연구에서는 약 2억 1,400만 개의 AFDB 구조에서 필터링된 고품질 AFDB 하위 집합 D21M도 사용했습니다.이 하위 집합에는 약 2,100만 개의 합성 구조 단백질이 포함되어 있습니다.

데이터 세트 통계

연구진은 위의 두 데이터 세트를 기반으로 세 가지 Proteina 모델을 추가로 훈련했습니다. 첫 번째는 2억 개의 매개변수가 있는 Transformer와 1천만 개의 매개변수가 있는 삼각형 레이어로 구성된 MFS 모델입니다. 두 번째는 2억 개의 매개변수를 갖는 변환기만 포함하고 삼각형 계층이나 쌍별 표현 업데이트는 포함하지 않는 Mno-triFS 모델입니다. 세 번째는 4억 개의 매개변수를 갖는 Transformer와 1,500만 개의 매개변수를 갖는 삼각형 레이어로 구성된 M21M 모델입니다.

무조건 단백질 구조 생성 분야에서는 등변형 방법이 오랫동안 지배적이었지만 Proteina는 대규모 비등변형 흐름 모델도 성공적일 수 있음을 보여줍니다. 훈련용 버전의 매개변수는 4억을 넘습니다.RFdiffusion보다 5배 이상 크고 현재 가장 큰 단백질 백본 생성기입니다.결과에 따르면 DFS로 학습한 모델은 더 높은 다양성을 보였지만, 연구자들은 DFS보다 완전히 합성된 구조에서 훨씬 더 많은 양의 고품질 데이터를 생성할 수 있었습니다.

평가 지표 측면에서 Proteina는 기존의 다양성, 참신성, 디자인성 평가에 만족하지 않고 DFS의 경험적 레이블을 모델에 직접 입력하여 혁신적인 평가 지표를 도입했습니다. 이러한 움직임은 다양한 접힘 구조 사이의 다양성을 강화하고, 새로운 접힘 클래스 제약을 통해 합성 단백질 구조에 대한 전례 없는 제어를 제공합니다.

아래 그림에서 볼 수 있듯이, 무조건 생성과 비교했을 때 Proteina의 조건부 모델은 가장 뛰어난 FPSD, fS, fJSD 점수를 달성하는 동시에 가장 진보된 TM-Score 다양성을 달성합니다.이는 접힘 구조 다양성 "fS"에서의 이점과 생성된 구조와 참조 데이터 간의 더 나은 분포 일치를 충분히 보여줍니다.

무조건 생성을 위한 Proteina 대 Baseline

또한 Proteina는 단백질 구조 생성을 수용하기 위해 흐름 매칭 목표를 조정하고 LoRA를 사용하여 모델을 미세 조정하여 자연스럽고 설계 가능한 단백질을 생성하는 등 단계별 학습 전략을 모색했습니다. 또한 계층적 폴딩 범주 조건 제약에 대한 새로운 지침 체계를 개발하고 단백질의 설계성을 향상시키기 위한 자체 지침을 성공적으로 시연했습니다.단백질 백본 생성 성능 측면에서 Proteina는 특히 장쇄 합성에서 SOTA 수준에 도달했습니다.이 모델은 모든 기준 모델보다 상당히 우수한 성능을 보이며, 새로운 폴딩 카테고리 조건 제약을 통해 이전 모델보다 뛰어난 제어 기능을 보여줍니다.

중국 AI 단백질 설계 분야에서 떠오르는 혁신

현재 DeepSeek이 다시 한번 대규모 언어 모델에 불을 붙이면서 단백질 설계 분야는 의심할 여지 없이 새로운 개발 기회를 가져올 것이며 점점 더 많은 중국 세력이 등장할 것입니다. 사실, 지금까지 중국의 연구자와 기업은 단백질 구조 설계 분야에서만 많은 성과를 냈습니다.

2022년에AI로 구동되는 상하이 티안랑 XLab이 새로운 단백질 설계 플랫폼인 TRDesign을 출시했습니다. TRDesign은 단백질 서열과 구조 간의 관계에 대해 많은 것을 학습하여 단백질 접힘 공간에서 모든 잠재적 가능성을 정확하게 탐색하고, 단백질 접힘에서 학습한 서열-구조-기능 연관 관계를 역으로 매핑하고, 처음부터 끝까지 단백질 설계, 테스트, 안정성 및 친화도 최적화를 수행하여 수요를 더 잘 충족하는 단백질 구조를 설계할 수 있습니다.

2023년에분자심장(Molecular Heart)의 창립자인 진보 쉬 교수는 2023년 세계인공지능대회 "WAIC"에서 NewOrigin 빅모델을 출시했습니다.수천억 개의 멀티모달 빅데이터로부터 학습함으로써, 이 모델은 멀티모달 지향 생성을 달성할 수 있습니다. 단일 모델로 단백질 생성의 전체 프로세스 요구 사항을 충족할 수 있습니다. 여기에는 시퀀스 생성, 구조 예측, 기능 예측, 신규 설계가 포함됩니다. 이를 통해 산업적 응용 분야에 필요한 특정 기능성 단백질을 생성하는 문제를 해결하고 실제 산업 환경에서의 효과와 가치를 평가할 수 있습니다.

2024년 4월, 우시 투신 지허 인공지능 기술 유한회사는 여러 연구 기관과 협력하여중국 최초의 자연어 텍스트-단백질 대형 모델인 TourSynbio를 공동 출시했습니다. TourSynbio의 대형 모델은 단백질 설계 과정을 개방하고 "단백질 설계 AI in One"을 실현합니다. 이 솔루션은 모든 단백질에 대한 심층적인 표현을 제공하고, 자연어 대화와 프롬프트를 지원하며, 단백질 설계 과정을 대폭 단순화합니다.

2024년 8월중국과학원 컴퓨팅기술연구소의 장하이창 연구팀은 CarbonNovo를 제안했습니다.이 결과는 ICML2024에 게재되었습니다. CarbonNovo는 단백질 백본 구조와 서열을 종단 간 방식으로 공동으로 설계합니다. 이 모델은 공동 에너지 모델을 확립하고 단백질 언어 모델을 도입하여 설계 효율성과 성능을 효과적으로 개선했으며, 기존의 2단계 설계 모델에 비해 상당한 장점을 보여주었습니다.
논문 링크:

https://openreview.net/pdf?id=FSxTEvuFa7 코드 링크:

https://github.com/zhanghaicang/carbonmatrix_public

2024년 10월, USTC 생명과학 및 의학부의 Liu Haiyan 교수와 Chen Quan 교수 팀은우리는 사전 훈련된 구조 예측 네트워크에 의존하지 않는 단백질 백본 잡음 제거 확산 확률 모델인 SCUBA-D를 개발했습니다.이 기술은 처음부터 자동으로 주 사슬 구조를 설계할 수 있으며, 새로운 구조와 서열을 갖는 인공 단백질을 처음부터 설계할 수 있는 완전한 툴 체인을 형성합니다. RosettaDesign 외에 실험적으로 완전히 검증된 유일한 단백질 de novo 디자인 방법입니다. 관련 결과는 Nature Methods에 게재되었습니다.
논문 링크:

https://doi.org/10.1038/s41592-024-02437-W

2025년, Westlake University의 Lu Peilong 팀은 딥 러닝과 에너지 기반 방법을 결합했습니다.형광 리간드에 특이적으로 결합할 수 있는 막관통 형광 활성화 단백질 tmFAP가 성공적으로 설계되었습니다.딥러닝 알고리즘은 막 단백질 설계의 핵심 문제를 해결하는 데 사용되었습니다. 최초로, 막 내부에서 막 단백질과 리간드 분자 사이의 비공유 결합 상호작용에 대한 정밀한 신규 설계가 이루어졌고, 살아있는 세포에서 형광 활성화 능력이 입증되어 막 단백질의 설계 및 응용 분야에서 새로운 길이 열렸습니다. 이 연구는 세계 최고 학술지인 네이처에 게재되었습니다.
논문 링크:

https://www.nature.com/articles/s41586-025-08598-8

현재 중국은 AI 기반 단백질 설계 분야에서 독특한 기술 생태계를 형성했습니다. 이러한 획기적인 진전은 알고리즘 혁신 수준에서만 나타나는 것이 아니라, 기초 이론에서 산업 응용에 이르기까지 완전한 혁신 체인을 구축한 데서도 드러납니다. 이러한 성과의 출현은 단백질 설계 분야에서 중국의 기술적 혁신이 얼마나 깊고 폭넓었는지를 여실히 보여줍니다. AI 기술의 지속적인 발전으로 미래에는 더욱 괄목할 만한 성과가 있을 것으로 믿으며, 이는 글로벌 생명과학 연구와 바이오제약 산업의 발전에 패러다임 전환을 가져올 것입니다.