Command Palette

Search for a command to run...

Nature 저널에 게재되었습니다! 본 논문의 제1저자는 습식 실험 데이터 부족 문제를 해결하기 위해 단백질 언어 모델의 소표본 학습 방법을 자세히 설명합니다.

Featured Image

"AI4S를 만나다" 시리즈의 세 번째 에피소드에서는 상하이 교통대학교 자연과학연구소와 상하이 응용수학 국가센터의 박사후 연구원인 주쯔이를 초대하게 되어 영광입니다.상하이 교통대학의 홍량 연구 그룹은 AI 단백질 및 약물 설계, 분자 생물물리학에 중점을 두고 있습니다. 연구팀은 유익한 결과를 얻었다. 지금까지 그들은 77편의 연구 논문을 발표했으며, 그 중 다수가 Nature 저널에 게재되었습니다.

이 공유 세션에서 저우쯔이 박사는 "단백질 언어 모델을 위한 소규모 표본 학습 방법"이라는 제목으로 팀의 최신 연구 결과를 공유하고 AI 지원 지향 진화에 대한 새로운 아이디어를 탐구했습니다.

단백질 언어 모델(PLM)의 연구 배경

단백질 및 단백질 공학

단백질은 생물학적 기능을 담당하는 주요 운반체이며 생명 활동을 실행합니다. 천연 아미노산인 암모니아는 탈수 축합 반응을 거쳐 단백질의 잔류 서열을 형성한 후 3차 구조로 접힙니다. 단백질의 아미노산 프로필을 바꾸면 구조와 기능에 영향을 미칠 수 있습니다.

천연 단백질은 산업적 또는 의학적 요구를 충족시키기 어려운 경우가 많기 때문에 단백질 공학은 단백질을 돌연변이시켜 촉매 활성, 안정성, 결합 능력 등과 같은 단백질의 기능적 특성을 개선하고자 합니다.

우리는 일반적으로 단백질의 기능적 특성을 정량화하는 것을 적합도라고 부릅니다. 지시적 진화는 현재 주류를 이루는 단백질 공학 방법입니다.이 방법은 높은 적합도를 가진 돌연변이체를 찾기 위해 무작위 돌연변이 유발과 고처리량 실험에 의존하지만, 실험 비용이 높습니다. 이를 고려하여,오늘 제가 공유할 주제는 AI 방법을 사용하여 피트니스를 예측하고 이를 통해 실험 비용을 줄이는 방법입니다.

PLM 아키텍처

우리는 ChatGPT가 표현하는 언어 모델이 매우 강력하고 고품질의 텍스트를 이해하고 생성할 수 있다는 것을 알고 있습니다. 이러한 언어 모델은 방대한 양의 텍스트로 사전 학습되어 텍스트의 통계적 법칙을 학습하고 문맥 속의 단어의 기본 문법과 의미를 숙지할 수 있습니다. 그렇다면 비슷한 방식으로 대규모 단백질 시퀀스에 대해 단백질 언어 모델을 훈련하는 것이 가능할까요? 대답은 '예'입니다.

단백질 언어 모델 PLM에는 세 가지 주요 기능이 있습니다. 첫째, PLM은 단백질 서열의 공진화 정보를 모델링하고 잔류물 간의 상호 의존성과 진화적 제약을 학습할 수 있습니다.자연어와 마찬가지로 LM은 텍스트의 문법을 학습할 수 있습니다. PLM은 이 기능을 사용하여 어떤 돌연변이가 해로운지, 어떤 돌연변이가 유익한지를 추정하고, 이를 통해 돌연변이의 적합도를 예측할 수 있습니다.

둘째, PLM은 피트니스 예측 외에도 단백질의 벡터 표현도 계산할 수 있습니다.이러한 표현은 구조 예측이나 단백질 마이닝에 사용될 수 있으며, 미세 조정 후에는 기능 예측도 수행할 수 있습니다.

마지막으로, PLM은 ChatGPT와 같은 조건부 단백질 생성을 수행하여 새로운 단백질 설계를 달성할 수 있습니다.

PLM의 아키텍처는 자연어 LM과 유사하며, 자연어 LM은 자기회귀 모델과 마스크 모델로 구분됩니다.두 모델의 네트워크 구조는 모두 셀프 어텐션 메커니즘과 완전 연결 계층으로 구성된 Transformer를 사용합니다. 가장 큰 차이점은 사전 훈련 목표에 있습니다.

자기회귀 모델의 사전 학습 목표는 왼쪽에서 오른쪽으로 순서대로 다음 아미노산을 생성하는 것입니다.마스킹 모델의 목표는 빈칸을 채우는 것과 유사하게 무작위로 마스킹된 아미노산을 복원하는 것입니다. 자기회귀 모델은 각 아미노산을 예측할 때 왼쪽에 생성된 시퀀스에만 의존할 수 있으므로 주의가 단방향적입니다.마스킹 모델은 예측 중에 마스크된 위치의 양쪽에 있는 아미노산을 볼 수 있습니다.그러므로 주의는 양방향이다.

PLM의 두 가지 핫 연구 방향

현재 PLM에 대한 연구 핫스팟은 주로 두 가지 방향으로 나뉩니다. 첫 번째는 검색 증강 PLM입니다.훈련이나 예측 중에 이 유형의 모델은 현재 단백질의 다중 시퀀스 정렬(MSA)을 추가 입력으로 사용하고 검색된 정보를 통해 예측 성능을 향상시킵니다. 예를 들어, MSA Transformer와 Tranception은 이 유형의 전형적인 모델입니다.

두 번째는 멀티모달 PLM입니다.이러한 유형의 모델은 단백질 서열 외에도 단백질 구조나 기타 정보를 추가 입력으로 사용하여 모델의 표현 능력을 향상시킵니다. 예를 들어, 우리 그룹이 올해 제출한 ProSST 모델은 단백질 구조를 구조적 토큰 시퀀스로 정량화하고 이를 아미노산 시퀀스와 함께 Transformer 모델에 입력하여, 별도의 주의 메커니즘을 통해 두 유형의 정보를 융합합니다. 또 다른 예는 아미노산 유형, 완전한 3차 구조, 3차 구조 토큰, 2차 구조, 용매 접근 가능 표면적(SASA), 단백질과 잔류물의 기능적 설명 등 총 7가지 입력을 포함하여 더욱 풍부한 정보를 고려하는 현대 모델 ESM-3입니다.

비지도 및 지도 적합도 예측

다음으로, 적합도 예측 문제에 대해 논의해보겠습니다.PLM은 단백질 서열의 확률 분포를 모델링할 수 있으므로 레이블이 지정된 데이터 없이도 돌연변이의 적합도 예측에 직접 사용할 수 있습니다. 이 방법을 제로샷 예측 또는 비지도 예측이라고 합니다.

구체적으로, PLM은 돌연변이와 야생형 간의 로그 우도비를 계산하여 돌연변이의 점수를 매깁니다. 자기회귀 모델의 경우, 시퀀스 P의 확률은 각 아미노산을 생성할 확률의 곱입니다. 돌연변이 점수는 돌연변이 logP에서 야생형 logP를 빼서 얻을 수 있습니다. 직관적으로 말하면, 야생형과 비교하여 돌연변이 발생 확률을 비교한 다음 돌연변이의 영향을 평가하는 것입니다. 이는 경험적 평가 방법입니다.

마스킹 모델의 경우, 전체 시퀀스의 확률을 직접 계산하는 것은 불가능하지만, 먼저 특정 지점을 마스킹한 후 이 지점에서의 아미노산의 확률 분포를 추정할 수 있습니다. 따라서 각 돌연변이 위치에 대해 마스킹 후 예측된 돌연변이 아미노산의 logP에서 야생형 아미노산의 logP를 뺀 다음 모든 위치에서의 차이를 더하여 돌연변이의 점수를 얻을 수 있습니다.

또한 PLM은 단백질 서열의 벡터 표현을 제공하므로 충분한 실험 데이터가 있을 경우 감독된 적합도 예측을 달성하도록 미세 조정할 수도 있습니다.

구체적인 접근 방식은 PLM의 마지막 특징 계층 뒤에 적합도 예측을 위한 출력 계층(예: 주의 메커니즘이나 다층 퍼셉트론 MLP)을 추가하고, 전체 또는 부분 학습에 적합도 레이블을 사용하는 것입니다. 예를 들어, ECNet은 대규모 모델 기능을 기반으로 MSA 기능을 추가하고, LSTM을 통해 이를 통합하고, 지도 학습을 수행합니다. 저희 연구 그룹이 작년에 개발한 SESNet 모델은 ESM-1b의 시퀀스 특징, ESM-IF의 구조적 특징, MSA 특징을 결합하여 지도 학습된 피트니스 예측을 수행합니다.

FSFP 소개: PLM을 위한 소규모 샘플 학습 방법

적합도 예측을 위한 소규모 샘플 학습의 중요성

FSFP 방법을 소개하기에 앞서, 적합도 예측에서 소규모 표본 학습의 중요성을 명확히 할 필요가 있습니다. 비지도 학습 방법은 학습을 위해 레이블이 지정된 데이터를 필요로 하지 않지만, 제로 샷 스코어링 정확도가 낮습니다. 또한, 로그 우도비에 기반한 점수는 단백질의 특정한 자연 법칙만 반영할 수 있기 때문에 단백질의 비자연적 특성을 효과적으로 예측하기도 어렵습니다.

반면, 지도 학습 방법은 정확하지만 PLM 매개변수의 수가 너무 많기 때문에 성능을 크게 개선하려면 학습을 위한 대규모 실험 데이터가 필요합니다. 지도 학습 모델을 평가하려면 일반적으로 기존의 고처리량 데이터 세트를 8:2로 분할해야 하는데, 80%의 학습 세트에는 이미 수만 개의 데이터가 포함되어 있을 수 있으며, 이를 실제로 확보하는 데는 비용이 매우 많이 듭니다.

이 문제를 해결하기 위해, 우리는 PLM을 위한 소규모 학습 접근법인 FSFP 방법을 제안합니다. 이 방법은 소수의 훈련 샘플(수십 개)을 사용하여 PLM의 적합도 예측 성능을 크게 개선할 수 있습니다. 동시에 FSFP 방법은 매우 유연하며 다양한 PLM에 적용할 수 있습니다.

FSFP 방식: 체력을 위한 학습 순위

이전의 지도 학습 방법은 모두 적합도 예측을 회귀 문제로 간주했습니다. 즉, 모델 출력과 적합도 레이블 간의 평균 제곱 오차(MSE)를 계산하여 모델을 최적화하는 것입니다. 그러나 표본이 작은 조건에서는 회귀 모델이 과도하게 적합되기 쉽고 학습 손실이 매우 빠르게 감소합니다. 그래서 우리는 생각을 바꿔 회귀 학습을 하지 않고, 대신 정확한 정렬만 필요하고 수치값의 정확한 맞춤은 필요 없는 순위 학습을 했습니다.

이 접근 방식에는 두 가지 주요 장점이 있습니다. 첫째, 시퀀싱 자체는 단백질 공학의 기본적인 요구 사항을 충족하는데, 이는 돌연변이의 상대적 효과만 측정하면 되기 때문입니다. 둘째, 순위를 매기는 작업은 절대값을 예측하는 작업보다 간단합니다.

학습 반복 과정에서는 샘플링된 돌연변이 세트를 레이블에 따라 역순으로 정렬한 다음, 이러한 돌연변이에 대한 모델의 예측 값을 기반으로 순위 손실(ListMLE)을 계산합니다.모델의 예측값 순위가 실제 순위에 가까울수록 손실은 작아집니다. 그 중에서 우리는 돌연변이에 대한 모델에 대한 스코어링 함수 f로 로그 우도비에 기반한 제로샷 스코어링 함수를 사용합니다. 이 방법의 목적은 제로 샷 스코어링을 시작점으로 삼고, 모듈을 다시 초기화하지 않고도 학습 데이터로 점진적으로 보정하여 성능을 개선하고, 학습의 어려움을 줄이는 것입니다.

FSFP 방식: PLM의 매개변수 효율적 미세 조정

PLM의 매개변수 수는 일반적으로 수억 개에 달하므로 매우 적은 데이터로 전체 모델을 미세 조정하면 필연적으로 과적합이 발생합니다.따라서 우리는 모델의 학습 가능한 매개변수 수를 제한하기 위해 두 번째 기술인 LoRA를 도입했습니다.

LoRA는 Transformer의 각 블록의 완전 연결 계층에 훈련 가능한 순위 분해 행렬 쌍을 삽입하여 사전 훈련된 매개변수를 변경하지 않습니다. 랭크 분해 행렬이 매우 작기 때문에 학습 가능한 매개변수의 개수를 원래의 1.84%로 줄일 수 있습니다. 학습 가능한 매개변수의 수는 줄어들지만, Transformer의 각 계층이 미세하게 조정되어 있기 때문에 모델의 학습 능력은 여전히 보장됩니다.

FSFP 방식: 메타 학습을 피트니스 예측에 적용

과잉적합을 피하기 위해, 우리는 더 나은 손실 함수를 사용했을 뿐만 아니라 LoRA 기술을 통해 학습 가능한 매개변수의 양도 제한했습니다. 하지만 그렇더라도 작은 샘플 학습 데이터에 너무 많은 학습 반복을 수행하면 과적합의 위험이 여전히 존재합니다. 따라서 우리는 더 적은 훈련 반복으로 모델 성능을 빠르게 개선하고자 합니다.이러한 필요성에 따라 우리는 세 번째 기술인 메타러닝을 도입했습니다. 메타 학습의 기본 아이디어는 먼저 모델이 일부 보조 작업에 대한 경험을 축적하여 초기 모델을 얻은 다음, 초기 모델을 사용하여 새로운 작업에 빠르게 적응하는 것입니다.

아래 그림에서 볼 수 있듯이 이는 메타러닝을 기반으로 한 이미지 분류의 한 예입니다. 목표 과제가 말을 분류하는 모델을 훈련하는 것이라고 가정해 보겠습니다. 하지만 말에 대한 레이블이 지정된 데이터가 상대적으로 적습니다. 따라서 우리는 먼저 고양이 분류, 개 분류 등과 같이 많은 양의 데이터를 가진 보조 작업을 찾은 다음 메타 학습 알고리즘을 사용하여 이러한 보조 작업에 대해 학습하고 새로운 작업을 학습하는 방법을 학습하여 메타 학습기를 얻을 수 있습니다. 그런 다음 이 메타 학습기를 초기 모델로 사용하고 소량의 레이블이 지정된 말 데이터로 여러 단계 동안 학습시키면 말 분류기를 빠르게 얻을 수 있습니다. 분명히, 메타 학습이 작동하기 위한 전제 조건은 사용되는 보조 작업이 목표 작업에 충분히 가깝다는 것입니다.

피트니스 예측 시나리오에 메타 학습을 적용하는 방법은 무엇입니까?우선, 우리의 목표는 Fitness를 기준으로 목표 단백질의 돌연변이를 순위를 매기는 것이며, 훈련될 모델은 LoRA 기술을 사용한 PLM입니다.

우리는 보조 작업을 구성하기 위해 두 가지 전략을 채택합니다. 첫 번째는 기존 DMS 데이터베이스에서 타겟 단백질과의 유사성을 기반으로 유사한 단백질의 돌연변이 실험 데이터 세트를 찾고, 처음 두 데이터 세트를 두 개의 보조 작업으로 선택하는 것입니다.이를 위한 시작점은 유사한 단백질의 적합도 지형도 유사하다는 것을 고려하는 것입니다.

두 번째 전략은 MSA 모델을 사용하여 표적 단백질의 후보 돌연변이를 평가하여 의사 레이블 데이터 세트를 형성하고 이를 세 번째 보조 작업으로 사용하는 것입니다.우리가 MSA 모델을 선택한 이유는 MSA 모델의 돌연변이 예측 효과가 일반적으로 PLM의 효과보다 떨어지지 않기 때문입니다. 우리는 MSA를 통해 데이터 강화를 수행하고 PLM의 표현 능력을 최대한 활용하고자 합니다.

우리가 사용하는 메타 학습 알고리즘은 MAML이며, 이 알고리즘의 학습 목표는 보조 작업의 학습 데이터로 k 단계 미세 조정을 한 후 메타 학습기의 테스트 손실을 최대한 작게 만드는 것입니다. 이렇게 하면 대상 작업에서 k 단계 미세 조정 후 대략 수렴할 수 있습니다.

단백질 적합도 예측에서 FSFP 방법의 성능 평가

벤치마크 생성

우리의 벤치마크 데이터는 ProteinGym에서 가져온 것으로, 원래는 87개의 DMS 데이터 세트를 포함하고 있었지만 현재는 217개로 업데이트되었습니다.87개의 DMS에 해당하는 단백질은 대략 진핵생물, 원핵생물, 인간, 바이러스의 4가지 범주로 나뉘며, 총 약 1,500만 개의 돌연변이와 해당 적합도를 포함합니다.

각 데이터 세트에 대해 20, 40, 60, 80, 100개의 단일점 돌연변이를 무작위로 선택하여 소규모 샘플 훈련 세트로 사용했고, 나머지 돌연변이는 테스트 세트로 사용했습니다. 조기 중단을 위해 추가적인 검증 세트를 사용하지 않았지만 대신 학습 세트에 대한 교차 검증을 통해 학습 단계 수를 추정했다는 점에 유의해야 합니다.

앞서 언급했듯이 메타 학습에는 세 가지 보조 작업이 필요하며, 그 중 두 가지는 대상 단백질과의 유사성을 기반으로 DMS 데이터베이스에서 검색됩니다.데이터 세트를 사용하여 학습할 때, 우리는 그것을 데이터베이스라고 가정하고 ProteinGym의 나머지 데이터 세트를 검색합니다.

아래 오른쪽 그림과 같이 ProteinGym의 각 단백질을 쿼리로 사용하고, 가장 유사한 단백질의 유사도 분포를 각각 MMseqs2와 FoldSeek를 통해 검색합니다. 가장 유사한 단백질의 평균 서열 또는 구조적 유사성은 약 0.5인 것을 알 수 있습니다. 세 번째 보조 작업에는 MSA 모델을 사용하여 돌연변이를 평가하는 것이 포함됩니다. 우리는 MSA를 기반으로 진화적 나무를 구성하고 진화적 나무의 각 지점의 보존성을 계산하여 돌연변이를 점수화하는 GEMME 모델을 선택했습니다.

평가 지표로는 스피어만/피어슨 계수와 NDCG가 사용되는데, 이는 적합도 예측 과제에서 일반적으로 사용되는 평가 기준입니다. 최종 평가 점수는 87개 데이터 세트의 평균 점수입니다.

ESM-2에 대한 FSFP의 절제 실험

아래 그림과 같이, 왼쪽 그림의 x축은 학습 세트의 크기를 나타내고, y축은 스피어만 계수를 나타내며, 각 선은 다른 모델 구성에 해당합니다. 맨 위 줄은 전체 FSFP 모델을 나타냅니다. 두 번째 줄은 MSA를 사용하지 않고 메타 학습의 세 번째 보조 작업을 유사한 단백질의 DMS 데이터로 대체하는 것을 나타냅니다. MSA 정보를 제거한 후 모델 성능이 감소하는 것을 볼 수 있습니다. 세 번째 줄은 메타 학습을 사용하지 않고 순위 학습과 LoRA에만 의존하며, 스피어만 계수가 더욱 감소하는 것을 나타냅니다.

녹색 선은 NBT에 이전에 발표된 능선 회귀 모델을 나타내며, 현재 소규모 샘플 시나리오에 적합한 몇 안 되는 기준 모델 중 하나입니다. 회색 점선은 ESM-2의 제로샷 점수를 나타냅니다. 아래 두 줄은 기존 회귀 방법을 사용하여 ESM-2를 훈련한 결과를 나타냅니다.

전반적으로, 훈련 샘플이 20개뿐인 경우, 본 방법은 제로샷 방법과 비교했을 때 스피어먼 점수를 10포인트 향상시켰으며, 각 모듈은 모델 성능에 긍정적인 역할을 했습니다. 오른쪽 그림은 40개 샘플의 학습 세트 크기를 사용하여 87개 데이터 세트에서 제로샷과 비교한 성능 향상 분포를 보여줍니다.우리의 방법이 대부분의 데이터 세트에서 모델 성능을 향상시킬 수 있고, 일부 데이터 세트에서는 40포인트 이상 향상되어 기준선보다 안정적인 성능을 보이는 것을 알 수 있습니다.

메타러닝의 효과

메타러닝의 목표는 적은 반복 횟수로 PLM이 대상 작업에 빠르게 수렴되도록 하는 것입니다.다음은 이를 설명하는 몇 가지 예입니다.

다음 3개 그래프는 40개의 학습 샘플을 사용하여 3개 데이터 세트에 대한 미세 조정의 학습 곡선을 보여줍니다. x축은 학습 단계 수를 나타내고, y축은 테스트 세트의 스피어만 계수를 나타냅니다. 위쪽의 주황색과 빨간색 선은 모두 메타 학습으로 훈련된 모델입니다. 전자는 MSA를 사용하여 보조 작업을 구성하는 반면, 후자는 그렇지 않습니다. 노란색 선은 메타 학습 없이 순위 학습과 LoRA만 사용하는 모델을 나타냅니다.

보시다시피,메타 학습을 통해 학습된 모델은 표적 단백질에 대한 성능을 더 빠르게 개선하고 20단계 안에 더 높은 점수에 도달할 수 있으며, 때로는 미세 조정 없이도 초기 모델보다 더 나은 성능을 발휘하기도 합니다. 이는 메타 학습이 효과적인 초기 모델을 만들어낸다는 것을 나타냅니다.아래의 MSE 기반 모델은 성능이 좋지 않고 빠르게 과적합되어 제로샷 방법을 능가하기 어렵습니다.

다양한 PLM에 FSFP를 적용한 결과

우리는 ESM-1v, ESM-2, SaProt이라는 세 가지 전형적인 PLM을 선택했습니다.처음 두 모델은 단백질 서열 정보만 사용하는 반면, SaProt은 단백질 3차 구조 토큰을 결합합니다.

왼쪽의 선 그래프는 다양한 학습 세트 크기에서 단일 점 돌연변이의 효과를 예측하기 위한 스피어만 점수를 보여줍니다. 같은 색상은 같은 모델을 나타내고, 점의 모양이 다르면 훈련 방법도 다릅니다. 위의 점은 FSFP 방법을 나타내고, 아래의 역삼각형은 능형 회귀를 나타내며, 점선은 모델의 제로샷 성능을 나타냅니다. 보라색 선은 PLM은 아니지만 GEMME 모델을 나타내며, 능형 회귀 방법을 결합할 수 있습니다.FSFP 방법은 각 PLM의 성능을 꾸준히 향상시킬 수 있으며, 해당 모델의 능선 회귀 및 제로샷보다 훨씬 더 나은 것을 알 수 있습니다.

두 번째 막대 그래프는 다양한 데이터 세트에서 세 가지 전략(제로샷, 릿지 회귀, FSFP)을 사용하여 얻은 최고 점수의 수를 보여줍니다. FSFP는 대부분의 데이터 세트에서 가장 좋은 성과를 보입니다.오른쪽의 두 그림은 다중점 돌연변이 예측의 성과를 보여줍니다. 11개의 다중점 돌연변이 데이터 세트가 관련되어 있으며, 얻은 결론은 단일점 돌연변이의 결론과 유사합니다. 그러나 능형 회귀 모델은 분산이 더 크며, 이는 데이터 분할에 민감하다는 것을 나타냅니다.

그런 다음 FSFP의 외삽 성능을 평가했으며, 특히 훈련 세트에서 발견되지 않은 돌연변이 부위의 예측 성능을 평가했습니다.. 이 경우 테스트 세트는 이전보다 훨씬 작아지고, 훈련 세트가 커짐에 따라 테스트 세트도 크게 바뀌므로 표의 제로샷 성능은 더 이상 직선이 아닙니다. 이 설정은 더 까다롭습니다. 왼쪽의 단일점 돌연변이 능선 회귀의 성능은 제로샷을 거의 넘어설 수 없지만, FSFP는 여전히 꾸준히 성능을 향상시킬 수 있음을 알 수 있습니다. 오른쪽의 다중점 돌연변이에 대한 테스트 결과는 우리의 훈련 방법이 우수한 일반화 능력을 가지고 있음을 보여줍니다.

FSFP를 사용한 Phi29 변환

또한, 우리는 FSFP를 사용하여 단백질 변형에 대한 사례 연구도 수행했습니다.목표 단백질은 DNA 중합효소인 Phi29이며, 우리는 단일점 돌연변이를 통해 Tm을 개선하고자 합니다.

실험 과정은 다음과 같습니다. 먼저 ESM-1v를 사용하여 포화된 단일점 돌연변이에 대해 제로샷 스코어링을 수행하고, 상위 20개 돌연변이를 선택한 후 습식 실험을 수행하여 Tm을 측정합니다. 그런 다음 이 20개의 실험 데이터를 훈련 세트로 사용하고, FSFP를 사용하여 ESM-1v를 훈련하고, 훈련된 모델을 사용하여 포화된 단일점 돌연변이를 다시 평가하고, 상위 20개 돌연변이를 다시 선택하여 테스트합니다.

오른쪽 그림은 두 라운드의 실험 전후의 Tm 분포를 비교한 것입니다. 1라운드에서 20개 돌연변이 중 7개가 양성이었는데, 2라운드에서는 12개로 늘어났고, 평균 Tm이 1도 증가했습니다. 이 중 2라운드에서 발견된 양성 돌연변이 9개는 새로운 것이었습니다. 양성률과 평균 Tm은 개선되었지만, 불행히도 가장 높은 Tm은 증가하지 않았습니다. 2라운드에서 얻은 가장 높은 Tm을 가진 돌연변이가 1라운드 결과에도 여전히 존재했기 때문입니다. 그러나 더욱 긍정적인 단일점 돌연변이가 얻어졌으므로, 이러한 부위를 결합하여 고점 돌연변이 실험을 수행하여 Tm을 더욱 향상시킬 수 있습니다.

FSFP 방법론 요약 및 향후 연구 전망

FSFP는 PLM을 위한 소규모 샘플 학습 전략으로, 소수(수십 개)의 레이블이 지정된 교육 샘플을 사용하여 돌연변이 효과 예측에서 PLM의 성능을 크게 향상시킬 수 있으며, 다양한 PLM에 유연하게 적용할 수 있습니다.실험 결과 FSFP의 설계가 합리적임이 밝혀졌습니다.

* 랭킹 학습은 단백질 공학에서 돌연변이 랭킹의 기본 요구 사항을 충족하고 학습의 난이도를 낮춥니다.

* LoRA는 PLM의 학습 가능한 매개변수의 양을 제어하여 과잉적합의 위험을 줄입니다.

* 메타 학습은 모델에 좋은 초기 매개변수를 제공하여 모델이 대상 작업으로 빠르게 이전될 수 있도록 합니다.

마지막으로, AI 지원 지향 진화의 미래 방향에 대해 논의합니다. AI 지원 지향 진화의 일반적인 과정은 일련의 초기 돌연변이로 시작하고, 습식 실험을 통해 적합도 레이블을 얻고, 실험에서 피드백된 레이블이 지정된 데이터를 사용하여 머신 러닝 모델을 훈련하는 것입니다. 그런 다음, 모델의 예측을 기반으로 테스트할 다음 라운드의 돌연변이가 선택되고 프로세스가 반복됩니다.

FSFP는 주로 실험 반복의 각 라운드에서 모델의 소규모 샘플 학습 문제를 해결하고 모델의 예측 정확도를 향상시킵니다.하지만 우리는 아직 다음 라운드에서 테스트할 돌연변이, 즉 다음 라운드에 추가할 새로운 훈련 샘플을 효과적으로 선택하는 방법에 대해 논의하지 않았습니다. Phi29 단백질 수정에 대한 이전 예에서 우리는 가장 높은 모델 점수를 가진 상위 20개 돌연변이를 직접 선택했습니다. 그러나 여러 라운드로 구성된 반복 시나리오에서는 탐욕적 선택 전략이 반드시 최선의 방법은 아닙니다. 지역 최적성에 빠질 가능성이 있기 때문입니다. 그러므로 탐사와 개발 사이에서 균형을 찾아야 합니다.

실제로, 라벨을 붙일 테스트 샘플을 반복적으로 선택하고 훈련 데이터를 점진적으로 확장하는 과정은 능동 학습 문제이며, 이를 통해 단백질 공학 분야에서 어느 정도 연구 진전이 이루어졌습니다. 예를 들어, 지도적 진화의 권위자인 프랜시스 H. 아놀드는 그녀의 논문 "능동 학습을 통한 지도적 진화"에서 관련 문제를 논의합니다.
서류 주소:
https://www.biorxiv.org/content/10.1101/2024.07.27.605457v1.full.pdf

우리는 불확실성 정량화 기법을 사용하여 각 돌연변이에 대한 모델 점수의 불확실성을 평가할 수 있습니다. 이러한 불확실성을 바탕으로 시험 샘플의 선택 전략은 더욱 다양해질 것입니다.. 일반적으로 사용되는 전략은 UCB 방법으로, 다음 라운드의 주석을 위해 가장 높은 모델 예측 불확실성을 가진 돌연변이 샘플을 선택합니다. 즉, 예측 분산이 가장 큰 샘플에 우선순위를 부여합니다. 이는 인간의 학습 과정과 비슷합니다. 우리가 어떤 지식에 대해 제대로 이해하지 못하거나 확신이 없다면, 우리는 학습을 강화하는 데 집중하게 됩니다.