HyperAI초신경

20개의 실험 데이터로 AI 단백질 개발의 이정표를 세우다! 상하이 교통대학교와 상하이 AI 연구소가 단백질 사전 학습 모델을 효과적으로 최적화하기 위해 FSFP를 공동 출시했습니다.

特色图像

단백질은 작지만 강력한 생물학적 분자로, 생명 활동의 기반이 되며 생물체 내에서 다양한 역할을 합니다. 그러나 특정 산업적 또는 의학적 요구에 맞춰 단백질 기능을 정밀하게 조정하고 최적화하는 것은 매우 어려운 작업입니다. 전통적으로 과학자들은 단백질의 신비를 탐구하기 위해 습식 실험실 방법에 의존해 왔지만, 이러한 접근 방식은 시간이 많이 걸리고 비용도 많이 듭니다.

다행히도 인공지능의 급속한 발전으로 사전 훈련된 단백질 언어 모델(PLM)이라는 새로운 도구가 생겨나 전례 없는 방식으로 단백질의 행동을 이해하고 예측하는 데 도움이 되고 있습니다. PLM은 수백만 개 단백질의 아미노산 서열 분포 특성을 비지도 방식으로 학습하고 단백질 서열과 기능 간의 암묵적 관계를 밝히는 데 큰 잠재력을 보여주어 대규모 설계 공간을 효율적으로 탐색하는 데 도움이 됩니다. 지금,사전 훈련된 PLM은 실험 데이터가 없어도 상당한 진전을 이루었지만, 정확도와 해석 가능성은 여전히 개선의 여지가 있습니다.또한, 기존의 지도 학습 모델은 많은 수의 레이블이 지정된 학습 샘플을 필요로 하는데, 이는 실제 적용 시 극복하기 어려운 장애물이기도 합니다.

위의 문제를 해결하기 위해서는,상하이 교통대학교 자연과학대학/물리천문학대학/장강고등연구소/약학대학의 홍량 교수 연구 그룹은 상하이 인공지능연구실의 젊은 연구원인 탄판과 협력하여메타 전이 학습(MTL), 순위 학습(LTR) 및 매개변수 효율적 미세 조정(PEFT)의 종합적 활용우리는 데이터가 극도로 부족한 상황에서 단백질 언어 모델을 효과적으로 최적화할 수 있는 FSFP라는 훈련 전략을 개발했습니다.이는 단백질 적응성에 대한 소규모 표본 학습에 사용될 수 있습니다. 이 방법은 매우 적은 양의 습한 실험 데이터를 사용할 때 돌연변이-속성 예측에 있어 기존 단백질 사전 학습 대형 모델의 효과를 크게 개선하며, 실제 응용 분야에서도 큰 잠재력을 보여줍니다.

관련 연구는 "최소한의 습식 실험실 데이터를 이용한 소수 학습을 통한 단백질 언어 모델의 효율성 향상"이라는 제목으로 Nature의 자회사인 Nature Communications에 게재되었습니다.

서류 주소:
https://doi.org/10.1038/s41467-024-49798-6

ProteinGym 단백질 돌연변이 데이터 세트 다운로드 주소:

https://go.hyper.ai/6GvFD

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s

FSFP는 데이터 부족 문제를 해결하기 위해 단백질 언어 모델을 최적화합니다.

FSFP 접근 방식은 세 단계로 구성됩니다.메타 트레이닝을 위한 보조 작업을 구축하고, 보조 작업에 대한 PLM을 메타 트레이닝하고, LTR을 통해 PLM을 대상 작업으로 전송합니다.

표적 단백질의 야생형 서열 또는 구조를 기반으로 검색

안에,메타러닝은 여러 학습 과제에서 경험을 축적하여 소수의 학습 예제와 반복만으로 새로운 과제에 빠르게 적응할 수 있는 모델을 학습하는 것을 목표로 합니다.. 따라서 본 연구에서는 먼저 PLM을 사용하여 표적 단백질의 야생형 서열 또는 구조와 데이터베이스에 있는 서열 또는 구조를 내장 벡터에 인코딩했습니다.

MAML 알고리즘은 PLM을 메타 학습합니다.

또한,이 연구에서는 MAML(Model-Agnostic Meta-Learning)이라고 불리는 기울기 기반 메타 학습 방법을 사용했습니다.구성된 작업에 대해 PLM을 메타 훈련합니다. MAML은 최적의 초기 모델 매개변수를 찾을 수 있기 때문에 이를 조금만 변경해도 대상 작업에 상당한 개선이 이루어질 수 있습니다. 각 반복에서 메타 학습 프로세스는 두 가지 수준의 최적화로 구성되며, 결국 PLM을 초기화된 메타 학습기로 변환합니다.

내부 최적화에서는 현재 메타 학습기를 사용하여 임시 기반 학습기를 초기화한 다음, 작업의 학습 데이터를 샘플링하여 작업별 모델로 업데이트합니다. 외부 최적화에서는 작업별 모델의 테스트 손실을 작업에 적용하여 메타 학습기를 최적화합니다.

훈련 데이터가 너무 적어서 발생하는 치명적인 과적합을 방지하기 위해,FSFP는 LoRA(Low Rank Adaptation)를 사용하여 훈련 가능한 순위 분해 행렬을 PLM에 주입합니다.원래 사전 훈련된 매개변수는 고정되고 모든 모델 업데이트는 소수의 훈련 가능한 매개변수로 제한됩니다.

메타 학습된 모델을 타겟 퓨샷 학습 작업으로 전환

메타 학습 후, 연구는 LoRA 매개변수를 기반으로 초기화를 얻을 수 있으며, 최종적으로 메타 학습된 PLM을 대상 소규모 샘플 학습 과제로 전송할 수 있습니다. 즉, 제한된 레이블 데이터로 대상 단백질의 돌연변이 효과를 예측하는 방법을 학습하는 것입니다. 단백질 돌연변이 예측을 위한 기존의 지도 학습 방법과 달리,FSFP는 이를 정렬 문제로 취급하고 LTR 기술을 활용합니다.

구체적으로 FSFP는 ListMLE 손실을 계산하여 돌연변이 적합도를 순위 매기는 방법을 학습합니다. 각 반복에서 이 연구는 샘플링된 데이터의 하나 이상의 하위 집합에 대한 예측이 기준 진실 배열로 수렴되도록 모델을 훈련합니다. 이러한 훈련 계획은 타겟 훈련 데이터를 사용하는 전이 학습 단계의 내부 최적화와 보조 작업 훈련 데이터를 사용하는 메타 훈련 단계에서 동시에 적용됩니다.

87개의 고처리량 돌연변이 데이터 세트를 기반으로 한 ProteinGym 벤치마크

메타학습에 필요한 학습과제를 구성하기 위해서는이 방법은 먼저 기존의 라벨이 부착된 돌연변이 데이터 세트를 검색하고, 가장 큰 공개 DMS 데이터 세트 컬렉션인 ProteinGym에서 대상 단백질에 가장 가까운 처음 두 단백질의 돌연변이 데이터 세트를 검색하고, MSA 기반 GEMME 의사 라벨링 방법을 사용하여 대상 단백질의 돌연변이 정보를 평가하여 세 번째 작업을 위한 데이터 세트를 구성합니다. 이러한 데이터 세트는 표적 단백질에 대한 변형의 효과를 예측하는 데 도움이 될 수 있습니다. 이러한 작업에 대한 레이블이 지정된 데이터는 무작위로 훈련 데이터와 테스트 데이터로 나뉩니다.

모델 성능을 평가하려면본 연구에서는 단백질 돌연변이 데이터 세트(ProteinGym)를 벤치마크 데이터 세트로 선택했습니다. 이 데이터 세트에는 87개의 DMS 시퀀싱 실험에서 나온 총 약 150만 개의 미스센스 변형이 포함되어 있습니다. ESM-1v의 최대 입력 길이가 1,024이므로, 이 연구에서는 1,024개가 넘는 아미노산을 가진 단백질을 잘라내고 해당 데이터 세트에서 대부분의 돌연변이가 생성된 간격 내에서 발생하도록 했습니다.

다음으로, 본 연구에서는 무작위로 20개의 단일점 돌연변이를 초기 학습 세트로 선택한 다음, 학습 세트 크기를 40개로 확장하기 위해 또 다른 20개의 단일점 돌연변이를 추가하고, 유사하게 60, 80, 100개의 학습 세트를 구성했습니다. 5번의 무작위 데이터 분할 과정 후,이 연구를 통해 특정 훈련 규모의 다양한 파티션에서 모델 성능의 평균을 얻을 수 있습니다.

FSFP는 세 가지 기본 모델에 성공적으로 적용되었으며 소규모 샘플 학습 과제에서 상당한 이점을 제공합니다.

이론적으로 FSFP는 경사 하강 최적화를 기반으로 하는 모든 단백질 언어 모델에 적용될 수 있습니다.그 보편성을 검증하기 위해서는본 연구에서는 학습을 위한 기본 모델로 대표적인 PLM 3종(ESM-1v, ESM-2, SaPro-t)을 선정하였고, 평가를 위해 650M 버전을 선정하였다.

단일 사이트 및 다중 사이트 돌연변이체의 전반적인 성능

평균적인 성과 측면에서,FSFP로 학습한 PLM은 모든 학습 데이터 크기에서 다른 기준보다 지속적으로 우수한 성능을 보였습니다. 그 중 SaProt(FSFP)가 가장 좋은 성과를 보였으며, ESM-1v(FSFP)와 ESM-2(FSFP)도 마찬가지로 좋은 성과를 보였습니다. 게다가 ProteinGym의 대부분 데이터 세트에서 FSFP로 훈련된 PLM은 가장 좋은 스피어만 상관관계를 달성했습니다. FSFP는 단 20개의 학습 예제를 사용하여 단일 돌연변이체의 스피어만 상관관계를 개선함으로써 제로샷 예측과 비교했을 때 단일 돌연변이체에 대한 PLM의 성능을 거의 0.1만큼 향상시켰으며, 여러 돌연변이체가 관련될 경우 이 격차는 더욱 커졌습니다. 이러한 개선은 훈련 데이터 세트가 커질수록 커지는데, 이는 이 연구의 절제 결과와 일치합니다.

FSFP를 사용하는 모델은 모든 학습 샘플에서 GEMME와 향상된 능형 회귀 버전보다 상당한 개선을 달성했습니다. 이는 FSFP가 GEMME의 다중 시퀀스 정렬 지식을 PLM으로 전송할 뿐만 아니라, 멀티태스크 학습을 통해 타겟 학습 데이터의 감독 정보와 성공적으로 결합한다는 것을 보여줍니다.이는 소수 학습 과제에서 FSFP의 장점을 다시 한번 확인시켜 줍니다.

FSFP 훈련된 PLM의 외삽 성능 평가, 스피어만 상관관계 평가가 더 좋습니다.

단일 사이트 및 다중 사이트 돌연변이의 외삽된 성능

연구자들은 훈련 예제와 돌연변이 부위가 다른 모든 단일점 돌연변이체를 원래 테스트 세트에서 선택했고, 이를 통해 훈련 예제와 다른 단일점 돌연변이체의 테스트 세트를 얻었습니다. 그런 다음 연구자들은 개별 돌연변이가 훈련 데이터의 돌연변이와 겹치지 않는 다중점 돌연변이를 선택하여 또 다른 어려운 테스트 세트를 만들었습니다. 이 설정에서 우리는 기본 모델의 제로샷 성능이 훈련 세트의 크기에 따라 상당히 확장되는 것을 발견했습니다.

다양한 위치에서 단일점 돌연변이가 발생한 경우, 능형 회귀로 강화된 모델은 100개의 학습 예제를 사용하더라도 기본 모델보다 더 나은 성능을 보이지 못했습니다. 다중점 돌연변이의 경우, 학습 크기가 60보다 작으면 능형 회귀 방법은 GEMME 및 ESM-2의 성능을 효과적으로 개선할 수 없습니다. 이와 대조적으로 FSFP를 사용하여 훈련된 PLM은 모든 훈련 크기에서 모든 기본 모델과 비교했을 때 스피어만 상관관계 점수가 더 높았습니다. 또한,대부분의 데이터 세트에서 가장 좋은 성능을 보이는 모델은 FSFP로 훈련된 모델입니다.

4가지 단백질의 종합적인 비교, FSFP는 소규모 데이터세트로 훈련할 때 더 큰 이점을 제공합니다.

4가지 단백질 간의 스피어만 상관관계 비교

FSFP의 적용성과 일반화를 더욱 입증하기 위해,이 연구에서는 또한 4가지 단백질, 즉 HIV의 봉투 단백질 Env, 인간 α-시누클레인, 단백질 G(GB1), 인간 TAR DNA 결합 단백질 43(TDP-43)에 대한 다양한 방법 간의 비교 결과를 보여주었습니다. 이러한 사례 중 여러 개에서 하나 이상의 비지도 모델이 성능이 좋지 않았습니다.

특히 TDP-43의 경우, 0-샘플 예측에 대한 모든 스피어만 상관관계가 0에 가깝습니다. GB1을 제외하고 능형 회귀로 강화된 대부분의 모델도 대규모 학습 데이터 세트에서는 상당한 성능 향상을 달성하지 못했습니다. 이와 대조적으로 사전 학습된 모델은 FSFP를 사용하여 소규모 데이터 세트로 학습할 경우 상당한 성과를 얻을 수 있습니다.

FSFP를 사용하여 Phi29 DNA 중합효소를 설계하면 양성률이 25%만큼 증가합니다.

FSFP를 사용한 Phi29 프로젝트

이 연구에서는 또한 단백질 Phi29 변형의 특정 사례를 조사했습니다.습식 테스트 검증이 수행되었습니다.이 연구에서는 제한된 습식 실험 데이터를 기반으로 FSFP를 사용하여 ESM-1v를 훈련하고, 이를 사용하여 새로운 단일 부위 돌연변이를 찾고 실험적 검증을 수행했습니다. FSFP 훈련 전후 ESM-1v의 상위 20개 예측 결과를 비교한 결과, 평균 Tm값이 1℃ 이상 증가하였고, 양성률이 25% 증가하였다.

구체적으로, ESM-1v(FSFP)가 발견한 최상의 돌연변이체(즉, 가장 높은 Tm 값을 갖는 돌연변이체)는 ESM-1v(zero-shot)에서도 추천되었습니다. 그러나 ESM-1v(FSFP)가 예측한 양성 돌연변이체 중 9개는 훈련 데이터에 나타나지 않았으며, 이는 FSFP가 PLM이 더 많은 단백질 변형체를 식별하는 데 도움이 될 수 있음을 나타냅니다.이러한 결과는 FSFP가 단백질 엔지니어링 설계 및 테스트의 반복적 주기를 가속화할 수 있는 잠재력을 확인시켜 줍니다.이는 향상된 기능적 특성을 가진 단백질을 개발하는 데 도움이 될 수 있습니다.

AI 생명공학의 대표적 사례, 강력한 동맹이 시대를 선도한다

오늘날 AI와 과학 연구가 긴밀하게 통합되면서 우리는 역사적인 기회 앞에 서 있습니다. 홍량 교수는 중국의 생물제약 산업이 강력한 역량을 갖추고 있지만 국제 산업 사슬에서 이익 점유율을 높이는 데는 여전히 개선의 여지가 있다고 생각합니다. AI를 통해 우리는 '차선을 변경하고 추월'할 수 있는 기회를 얻었으며, 인공지능의 힘을 직접 활용해 산업 발전을 촉진할 수 있습니다. 홍량 교수와 탄판 연구원은 이러한 개념을 바탕으로 생명공학을 위한 AI 분야에서 끝없는 탐구를 시작했습니다.

탄 판 박사는 분자 생물물리학, 인공지능 기능적 단백질 설계, 약물 분자 설계에 중점을 두고 있습니다.Nature Communications, PRL, Journal of Cheminformatics, PCCP 등의 저널에 15편의 SCI 논문을 게재했습니다. 다양한 AI 지원 단백질 설계 및 수정 알고리즘을 개발했습니다. 홍량 교수의 전문 지식과 탄 판 박사의 AI 알고리즘을 결합한 두 당사자의 협력 연구는 반복적으로 성공을 거두었습니다.

지난 몇 년간 두 당사자는 단백질 공학 분야의 일반 인공지능에 대한 혁신적인 연구에 집중해 왔으며, 단백질 공학을 위한 일반 인공지능 Pro 시리즈를 성공적으로 개발했습니다. ChatGPT가 인간의 언어를 이해하는 방식과 유사하게, Pro 시리즈는 대규모 모델을 사용하여 자연에 존재하는 단백질의 아미노산 배열을 이해하고 뛰어난 성능을 갖춘 단백질 제품을 설계합니다. 그중에서도 산업 응용 분야에서 두 가지 획기적인 제품이 있습니다.

* 매우 알칼리에 강한 단일 도메인 항체:진사이제약과 공동 개발한 세계 최초의 대규모 모델 설계 단백질 제품이 5,000리터의 산업 생산을 달성하여 생물학적 거대 분자 정제를 위한 새로운 솔루션을 제공했습니다.

* 글리코실트랜스퍼라제:한하이 뉴 엔자임과 협력하여 췌장염 검사의 핵심 소재인 EPS-G7을 생산하는 효소를 개발하여 장기간 외국 기업의 독점적 지위를 깨고 비용을 대폭 절감했습니다.

이 두 사례는 세계 최초, 두 번째로 대규모 모델 설계를 성공시키고, 단백질 제품의 산업화 단계로 생산 규모를 확장한 사례입니다. 홍량 교수는 AI 단백질 설계 분야에서 쌓은 풍부한 경험을 바탕으로 2021년 상하이 천우 과학기술 유한회사를 설립했습니다. 단 3년 만에 회사는 여러 단백질 설계 프로젝트를 완료했을 뿐만 아니라, Pre-A 라운드에서 수천만 위안의 자금 조달도 받았습니다. 투자자에는 Glory Ventures, GSR Ventures 등 유명 기관이 포함됩니다.

현재 회사의 서비스는 혁신적 약물, 체외 진단, 합성 생물학 등 다양한 분야를 망라하고 있으며, 더 많은 과학 연구 기관 및 기업과 적극적으로 협력을 모색하고 있으며, 단백질 공학 분야에서 국가적, 나아가 세계적 벤치마크를 설정하는 데 전념하고 있습니다.

경쟁이 치열한 단백질 공학 분야에서 Hong Liang 교수의 비전은 명확합니다.우리는 국내의 리더가 될 뿐만 아니라, 세계적인 리더가 되어야 합니다.홍량 교수와 그의 팀은 미래의 과학 연구 여정에서 전 세계 과학 연구 기관 및 기업과 심층 협력을 확대하고, 단백질 설계의 무한한 가능성을 끊임없이 탐구하고, 이 분야에서 기술적 획기적인 발전과 응용 혁신을 이루고자 노력하며, 국내적으로 벤치마크를 설정하고 국제적으로 우수성을 입증하고자 합니다.

마지막으로, 온라인 학술 공유 활동을 추천드립니다. 관심 있는 친구들은 QR 코드를 스캔하여 참여할 수 있습니다!