HyperAI초신경

NeurIPS 2024에 제출한 경험을 공유해 주세요! 저장대학교 팀은 DePLM 모델을 사용하여 단백질 최적화를 지원했으며 논문의 첫 번째 저자는 데모를 온라인으로 시연했습니다.

特色图像

미국 국립공학아카데미(National Academy of Engineering)의 외국인 회원인 해리 슘(Harry Shum)은 한때 이렇게 강조했습니다. "오늘 우리가 해야 할 일이 있다면, 그것은 과학을 위한 AI입니다. 오늘날 이보다 더 중요한 일은 상상하기 어렵고, 올해 노벨상 수상은 이를 가장 잘 증명합니다."

과거에는 과학자들이 주제 이론에 기반한 가설과 수동 데이터 구성에 의존했습니다. 이제 AI의 도움으로 방대한 데이터를 기반으로 연구가 직접 수행됩니다. 과학을 위한 AI는 과학 연구의 효율성을 향상시켰을 뿐만 아니라, 과학 연구의 패러다임 자체를 바꾸어 놓았는데, 특히 단백질 연구 분야에서 이러한 변화가 두드러지게 나타났습니다.

Meet AI4S 5회에서는 HyperAI가 저장대학교 지식엔진연구실 박사과정 학생인 왕제위안을 초대하게 되어 영광이었습니다.그는 "확산 잡음 제거 프로세스를 사용하여 대형 모델의 단백질 최적화 지원"이라는 제목의 NeurIPS 2024에 선정된 팀의 논문에 대해 자세히 소개했습니다. "DePLM: 속성 최적화를 위한 단백질 언어 모델 잡음 제거"

NeurIPS는 AI 분야 최고의 학회로서, 가장 어렵고, 가장 높은 수준이며, 가장 영향력 있는 AI 학술대회 중 하나로 알려져 있습니다. 올해 학술대회에는 총 15,671편의 유효한 논문이 접수되었는데, 이는 작년보다 27%가 증가한 수치이지만, 최종 승인율은 25.8%에 불과했습니다. 선정된 논문은 매우 학습 가치가 있습니다.이 공유 세션에서 왕쩌위안 박사는 잡음 제거 단백질 언어 모델 DePLM의 설계 개념, 실험 결론, 데모 운영 모드 및 미래 전망에 대해 자세히 소개했습니다. 또한 그는 주요 학회에 논문을 제출한 경험도 공유하여 모든 사람에게 도움이 되기를 바랐습니다.

왕 박사는 논문을 제출할 때 주제 선택, 혁신적인 관점, 논문 작성, 학제 간 리뷰 대처부터 시작할 수 있다고 구체적으로 말했습니다.

첫째, 주제 선정 측면에서현재 커뮤니티가 관심을 갖고 있는 보다 의미 있는 연구 방향을 이해하기 위해 다양한 주요 학회 논문을 읽어볼 수 있습니다. 예를 들어, 왕 박사는 DePLM 논문을 준비하면서 단백질 공학, 특히 단백질 예측 작업이 작년 ICLR 및 NeurIPS 컨퍼런스에서 주요 주제였다는 것을 발견했습니다.

둘째, 혁신 측면에서는그는 문제를 발견하는 능력을 키우는 것이 중요하다고 믿는다. 과학을 위한 AI 분야에서는 먼저 과학 분야의 지식을 심도 있게 이해하고, 이를 AI 분야의 내용과 비교하여 AI가 아직 탐색하지 않은 빈 영역을 찾아내야 합니다.

에세이 쓰기 측면에서,그는 기사를 이해하기 쉽게 하려면 글을 논리적으로 명확하고 자세하게 써야 한다고 말했습니다. 또한, 자신의 고정된 사고 패턴에 빠지지 않으려면 교사와 반 친구들과 더 많이 소통하는 것이 필요합니다.

마지막으로, AI for Science 논문은 AI 기술에 더 중점을 두는 한 심사자와 과학 응용 프로그램에 더 중점을 두는 다른 심사자 등 두 가지 다른 배경을 가진 심사자에 의해 심사될 수 있다는 점을 고려하면,따라서 논문을 쓸 때 논문의 핵심 위치를 명확히 하는 것이 필요하다.즉, 이 논문이 AI 커뮤니티를 대상으로 하는지, 과학 커뮤니티를 대상으로 하는지에 따라 논리적 프레임워크가 구성되어 내용이 주제와 밀접하게 관련되도록 보장합니다.

그의 의견으로는, 대규모 모델 연구의 현재 추세는 바뀌었습니다. 우리는 단순한 모방적 접근 방식에서 벗어나 대규모 모델에 대한 깊은 이해로 전환했습니다.과거에는 대형 모델이 다양한 다운스트림 작업에 적응하도록 했지만, 이제는 다운스트림 작업이 대형 모델의 사전 학습 단계와 더 잘 협력하도록 하는 방법에 더 관심을 두고 있습니다. 두 가지의 적합도가 높을수록 모델의 성능이 더 좋습니다.

예를 들어, 적응형 지형을 예측하는 경우, 기존의 간단한 미세 조정 방법은 일반화 능력 측면에서 성과가 좋지 않습니다. 우리는 대규모 모델과 비지도 학습 패러다임을 더 깊이 이해하여 그 단점을 파악하고 개선할 필요가 있습니다. 또한, 모델 성능을 최적화하기 위해 모델 편향을 제거하는 방법을 모색하는 등 대규모 모델 자체의 결함에도 주의를 기울여야 합니다.

오픈 소스 모델이며 테스트 가능합니다.

오늘은 NeurIPS 2024에서 발표한 논문을 공유하고 싶습니다. 이 논문에서는 확산 잡음 제거 모델을 사용하여 단백질에 대한 대규모 언어 모델의 최적화를 지원하는 방법을 설명합니다.본 논문에서는 새로운 Denoised Protein Language Model(DePLM)을 제안합니다.이 접근법의 핵심은 단백질 언어 모델이 포착한 진화적 정보를 대상 특성과 관련 있는 정보와 관련 없는 정보가 섞인 것으로 간주하고, 관련 없는 정보를 "노이즈"로 간주하여 제거하는 것입니다. 우리는 제안된 순위 기반 잡음 제거 절차가 강력한 일반화 기능을 유지하면서도 단백질 최적화 성능을 크게 향상시킬 수 있음을 발견했습니다.

현재 DePLM은 오픈 소스로 공개되었습니다. 모델의 복잡한 구성 환경으로 인해,HyperAI 공식 웹사이트의 튜토리얼 섹션에서 "DePLM: 잡음 제거된 언어 모델(소규모 샘플)을 통한 단백질 최적화"를 출시했습니다.여러분이 저희의 작업을 더 잘 이해하고 재현할 수 있도록, DePLM 모델이 실행되는 방식, 관련 구성 파일, 모델의 확산 단계를 미세 조정하는 방법, 그리고 사용자 정의 데이터 세트를 사용하여 DePLM 모델을 실행하는 방법 등 여러 측면에서 모델이 작동하는 방식을 설명해 드리겠습니다.
DePLM 오픈 소스 주소:

https://github.com/HICAI-ZJU/DePLM
DePLM 튜토리얼 주소:

https://go.hyper.ai/MDFUr

배경: 진화 정보 활용 극대화 및 데이터 편향 신호 도입 최소화

본 논문의 연구 대상은 단백질입니다. 단백질은 20개의 아미노산이 일렬로 배열된 생물학적 거대 분자입니다. 신체 내에서 촉매 작용, 신진대사, DNA 복제 등의 기능을 수행하며, 생명 활동의 주요 실행자이기도 합니다. 생물학자들은 보통 그 구조를 4가지 수준으로 구분합니다. 첫 번째 수준은 단백질이 어떻게 구성되는지 설명합니다. 두 번째 수준은 일반적인 α-나선과 β-폴드와 같은 단백질의 국소적 구조를 설명합니다. 세 번째 수준은 단백질의 전반적인 3차원 구조를 설명합니다. 네 번째 수준에서는 단백질 간의 상호작용을 고려합니다.

현재 대부분의 AI+단백질 연구는 자연어 처리 연구에서 시작되었다고 볼 수 있는데, 이는 두 분야 사이에 유사점이 있기 때문입니다. 예를 들어, 우리는 단백질의 4차 구조를 자연어의 문자, 단어, 문장, 문단과 비교할 수 있습니다. 문장에 글자 오류가 발생하면 문장의 의미가 사라집니다. 마찬가지로, 단백질의 아미노산에 돌연변이가 생기면 단백질이 안정적인 구조를 형성할 수 없게 되어 기능을 상실할 수 있습니다.

아래 그림에서 보듯이, "언어 모델을 활용한 제어 가능한 단백질 설계" 논문에서 연구자들은 자연어와 단백질을 대응시켰습니다. 이러한 접근 방식은 연구자들 사이에서 널리 인정되었습니다. 2020년 이후 단백질 연구는 폭발적인 성장을 보였습니다.
원본 논문:
https://www.nature.com/articles/s42256-022-00499-z

이번에 우리가 논의하는 문제는 AI+단백질 최적화입니다. 즉, 예상대로 기능하지 않는 단백질이 있을 경우, 예상되는 기능을 충족시키기 위해 아미노산 서열을 어떻게 조정할 것인가에 대한 것입니다.

자연에서 단백질은 점 삽입, 삭제 또는 점 돌연변이를 포함한 무작위적 변화를 통해 지속적으로 스스로를 최적화합니다. 생물학자들은 이 과정을 모방하여 단백질을 최적화하기 위해 지시적 진화와 심층적 돌연변이 스캐닝을 제안했습니다. 이 두 가지 방법의 문제점은 실험 자원을 너무 많이 소모한다는 것입니다. 그러므로,우리는 단백질과 단백질의 특성 적합도 간의 관계를 모델링하기 위해 계산적 방법을 사용합니다. 즉, 단백질 최적화에 중요한 적합도 지형을 예측합니다.

이 문제를 모델링하기 위해 일반적으로 데이터 세트, 평가 지표, 계산 방법을 사용합니다.아래 그림에서 보듯이, 단백질 최적화 데이터 세트에는 일반적으로 야생형 시퀀스 xwt, 여러 돌연변이 쌍 μi, 돌연변이 후 예측 적합도 값 yi가 포함됩니다. 평가 모델은 주로 스피어만 상관 계수에 의존합니다. 이 지표는 구체적인 예측 값에 초점을 맞추지 않고, 돌연변이로 인한 적합도 값 변화의 순위에 초점을 맞춥니다. 실제 돌연변이 R(Y)의 순위 값이 예측된 적합도 점수에 가까울수록 모델 훈련이 더 잘 된 것입니다.

계산적 방법은 대략 지도 모델링과 비지도 모델링으로 나눌 수 있습니다. 지도 학습은 레이블이 지정된 데이터에 의존하고 손실 함수를 최적화하여 모델을 훈련하여 적합도의 예측 능력을 향상시킵니다. 비지도 학습은 레이블이 지정된 데이터를 필요로 하지 않지만, 대신 적합도와 관련이 없는 대규모 단백질 데이터 세트에 대해 자기 지도 학습을 수행합니다. 이 모델은 한 번만 학습하면 되며 다양한 단백질 예측 작업에 일반화할 수 있습니다.

예를 들어, 마스크드 언어 모델링은 비지도 학습 방법입니다. 모델을 학습할 때는 모델에 오염된 시퀀스를 제공해야 합니다. 우리는 단어를 마스크할 수 있습니다(아래 그림의 빨간색 상자 안의 단어처럼) 또는 무작위로 다른 단어로 변경한 다음 언어 모델이 해당 단어를 복원하도록 할 수 있습니다. 즉, 원래 시퀀스를 복원하도록 할 수 있습니다. NeurIPS 2021에 발표된 논문에서 연구진은 이러한 모델이 예측한 단백질 돌연변이 확률이 적합도 환경과 상관관계가 있다는 것을 발견했습니다. 이를 위해 그들은 아래 그림의 오른쪽에 표시된 것처럼 4개의 돌연변이 점수 계산 공식을 설계했습니다.
원본 논문:
https://proceedings.neurips.cc/paper/2021/file/f51338d736f95dd42427296047067694-Paper.pdf

요약하자면, 지도 학습 방식은 좋은 성능을 보이지만 일반화 역량이 제한적인 반면, 비지도 학습 방식은 약간 나쁜 성능을 보이지만 일반화 역량이 강력합니다.아래 그림과 같이 두 가지 장점을 결합하기 위해 NLP 분야에서 사전 학습 + 미세 조정 전략을 차용했습니다. 몇 가지 시도 끝에, 이 방법이 좋은 성과를 거두긴 했지만 지도 학습과 마찬가지로 일반화 능력이 부족하다는 것을 발견했습니다. 그런 다음 우리는 비지도 학습 방법이 뛰어난 일반화 능력을 갖는 이유를 분석하고 이러한 일반화 능력은 진화 정보(EI)에서 비롯된다는 가설을 세웠습니다. 생물체는 자연적 진화를 통해 단백질을 최적화할 수 있고, 그러한 진화적 돌연변이도 유지될 수 있기 때문입니다. 따라서 우리는 돌연변이 확률과 적합도 지형 사이의 상관관계가 양의 상관관계에 있다고 생각합니다.

하지만 모델을 미세하게 조정하려고 할 때 실제로는 임베딩 정보를 사용하고 진화 정보를 완전히 활용하지 못합니다. 게다가 습식 실험 데이터에는 관련성 없는 정보가 편향되어 있습니다. 우리는 진화 정보가 안정성, 활성, 발현, 결합 등 다양한 방향의 포괄적인 정보를 담고 있다고 믿습니다. 단백질의 안정성을 최적화할 때 활성, 발현, 결합의 진화는 무관한 정보입니다. 이런 흥미롭지 않은 정보의 확률 값을 제거하면 모델의 성능을 개선할 수 있습니다. 전체 과정이 가능도 공간에서 수행되므로 모델의 일반화 능력에 영향을 미치지 않습니다.따라서 데이터 세트에 도입된 편향 신호를 최소화하는 동시에 미세 조정 중에 진화 정보의 사용을 극대화해야 합니다.

DePLM 알고리즘 프레임워크: 정렬 공간 기반 노이즈 제거 모델

이를 바탕으로 우리는 DePLM 모델을 제안했는데, 이 모델의 핵심 아이디어는 단백질 언어 모델이 포착한 진화적 정보를 흥미로운 신호와 흥미롭지 않은 신호의 융합으로 간주하는 것입니다. 후자는 대상 속성 최적화 작업에서 "노이즈"로 간주되므로 제거해야 합니다. DePLM은 속성 값의 순서 공간에서 확산 과정을 수행하여 진화 정보의 노이즈를 제거함으로써 모델의 일반화 능력을 향상시키고 돌연변이 효과를 예측합니다.

단백질의 아미노산 서열이 주어지면, 모델은 각 위치가 다양한 아미노산으로 돌연변이할 확률을 예측하고, 진화적 가능성은 Denosing Module을 통해 관심 있는 속성의 가능성을 생성합니다. 구체적으로,DePLM은 주로 전방 확산 프로세스와 학습된 후방 잡음 제거 프로세스의 두 부분으로 구성됩니다.순방향 프로세스에서는 실제 상황에 소량의 노이즈를 점진적으로 더하고, 역방향 노이즈 제거 프로세스에서는 누적된 노이즈를 점진적으로 제거하여 실제 상황을 복원하는 학습을 진행합니다.

아래 그림과 같이 DePLM은 ESM 시리즈를 기반으로 하며 Transformer 아키텍처를 채택했습니다. Denosing 모듈은 확산 과정 학습을 기반으로 하며, 네트워크 아키텍처에는 Feature Encoder와 Denosing Block이 포함되어 있습니다. Feature Encoder는 단백질 언어 모델에서 시퀀스 특징을 추출하고 ESM 1v 모델을 통해 구조적 특징을 추출합니다. 이 두 가지 특징은 앵커 포인트로 사용되며, 여러 라운드의 Denoising Block 반복을 통해 점진적으로 노이즈를 제거하고 Denosed 우도를 얻습니다.

과거에는 노이즈 제거 방법이 주로 이미지 생성 분야, 특히 확산 모델에서 사용되었습니다. 아래 그림과 같이, 원본 이미지 x0는 정의된 노이즈 제거 프로세스를 통해 가우시안 분포에 가까운 노이즈 공간(xT)으로 변환되고, 이후 모델은 역 노이즈 제거 프로세스를 학습합니다.

그러나 단백질 분야에 이미지 노이즈 제거 모델을 직접 적용하는 데는 몇 가지 문제가 있습니다. 위 그림에서 보듯이, 이미지 노이즈 제거 모델은 무작위 노이즈를 추가하여 분리할 수 없는 노이즈 공간(x0~xT)을 형성할 수 있습니다. 하지만 단백질은 적합도 점수와 진화적 가능성을 가지고 있으며, 초기 상태와 최종 상태는 고정되어 있습니다. 그러므로 소음 추가 과정은 신중하게 설계되어야 합니다. 둘째, 모델은 적합도 점수에 맞춰 정렬되므로 성능은 좋지만 일반화 능력은 낮습니다.

따라서 우리는 순위 관련성을 극대화하는 데 초점을 맞춘 순위 공간을 기반으로 한 잡음 제거 모델을 제안합니다.이는 관심 있는 속성 공간에 대한 진화적 가능성의 잡음을 제거하고 싶기 때문입니다. 우리는 이 공간의 구체적인 상황을 모르지만, 그 정렬이 적합도 정렬과 일치한다는 것을 알고 있습니다.

이 공간에 노이즈를 추가하고 모델이 많은 수의 데이터 세트를 학습하도록 하여 적합도 점수를 직접 정렬하는 대신 점진적으로 Denosied 가능성이 어떤 모습인지 학습합니다. 이러한 전방 노이즈 처리 과정에서는 정렬 알고리즘을 사용하여 정렬의 각 단계를 최종 상태에 더 가깝게 만들고 무작위성을 포함합니다. 이 모델은 또한 역순으로 단계별 정렬 아이디어를 학습합니다. 구체적으로, 아래 그림과 같이 xt-1이 있다면, xt-1과 xT를 정렬 알고리즘에 입력하여 여러 번 정렬할 수 있습니다. t번째 단계의 정렬 공간을 얻은 후, t번째 단계의 정렬 변수를 무작위로 샘플링하고, 모델이 t+1단계부터 t번째 단계까지의 우도를 예측하게 한 다음, 스피어만 손실을 계산할 수 있습니다. 이미지 노이즈 제거와 같은 많은 단계를 추가할 필요가 없으므로 일반적으로 정렬 과정을 5~6단계로 완료할 수 있으며, 이는 효율성도 향상시킵니다.

실험적 결론: DePLM은 우수한 성능과 강력한 일반화 능력을 가지고 있습니다.

단백질 공학 작업에서 DePLM의 성능을 평가하기 위해 ProteinGym, β-lactamase, GB1 및 Fluorescence 데이터세트를 기반으로 처음부터 학습한 단백질 시퀀스 인코더, 자체 감독 모델 등과 비교했습니다. 결과는 아래 그림과 같습니다. DePLM은 기준 모델보다 성능이 뛰어납니다.우리는 고품질 진화 정보가 미세 조정 결과를 크게 개선할 수 있다는 것을 발견했는데, 이는 제안한 잡음 제거 훈련 절차의 효과를 보여주며 단백질 공학 작업에서 진화 정보를 실험 데이터와 통합하는 이점이 있음을 확인시켜 줍니다.

단백질 공학 작업에서 DePLM과 기준 모델의 최고 및 두 번째로 좋은 성능은 각각 굵은 글씨와 밑줄로 표시되어 있습니다.

다음으로, DePLM의 일반화 능력을 추가로 평가하기 위해 ProteinGym은 측정한 단백질 특성에 따라 DMS 데이터 세트를 안정성, 적합도, 발현, 결합 및 활성의 5가지 범주로 분류했습니다. 이를 다른 자기 감독 모델, 구조 기반 모델, 지도 기준 모델과 비교합니다. 결과는 아래 그림과 같습니다. DePLM은 모든 기준 모델보다 성능이 뛰어납니다.이는 필터링되지 않은 진화 정보에만 의존하는 모델은 종종 여러 목표를 동시에 최적화하기 때문에 대상 속성이 희석되기 때문에 부적절하다는 것을 보여줍니다. DePLM은 관련 없는 요소의 영향을 제거함으로써 성과를 크게 향상시킵니다.

일반화 능력 평가의 가장 좋은 결과와 두 번째로 좋은 결과는 각각 표에 굵은 글씨로 표시되고 밑줄이 그어져 있습니다.

일반화 성능을 더욱 자세히 분석하고 속성과 무관한 정보를 걸러내는 것의 중요성을 파악하기 위해 속성 간의 훈련과 테스트의 교차 검증을 수행했습니다. 아래 그림에서 보듯이, 대부분의 경우 모델을 속성 A에 대해 학습시키고 속성 B에 대해 테스트할 경우, 동일한 속성(즉, A)에 대해 학습시키고 테스트할 때보다 성능이 낮습니다.이는 서로 다른 속성의 최적화 방향이 일관되지 않고 상호 간섭이 있음을 보여주며, 이는 우리의 초기 가설을 확인시켜 줍니다.

또한, 다른 속성의 데이터 세트로 학습하고 Binding 데이터 세트로 테스트하면 모델 성능이 향상되는 것을 발견했습니다. 이는 바인딩 데이터 세트의 제한된 데이터 볼륨과 낮은 데이터 품질로 인해 일반화 능력이 부족한 데 기인할 수 있습니다. 이것은 우리에게 영감을 줍니다.새로운 속성을 가진 단백질을 최적화할 때, 해당 속성과 관련된 데이터 세트가 적다면, 더 나은 일반화 기능을 얻기 위해 노이즈 제거 및 학습에 관련 속성을 가진 데이터를 사용하는 것을 고려할 수 있습니다.

단백질 분야를 더욱 심화시키다

이 생방송의 게스트는 저장대학교 지식엔진 연구실의 박사과정생인 왕쩌위안입니다. 천화준 교수, 장치앙 연구원 등이 이끄는 그의 팀은 지식 그래프, 대규모 언어 모델, 과학을 위한 AI 등의 분야에서 학술 연구에 전념하고 있으며, NeurIPS, ICML, ICLR, AAAI, IJCAI와 같은 최고 AI 컨퍼런스에서 많은 논문을 발표했습니다.
장치앙의 개인 홈페이지:
https://person.zju.edu.cn/H124023

단백질 분야에서 연구팀은 단백질을 최적화하기 위해 DePLM과 같은 고급 모델을 제안했을 뿐만 아니라, 생물학적 서열과 인간 언어 사이의 격차를 메우기 위해 노력했습니다.이를 위해 그들은 InstructProtein 모델을 제안했습니다.지식 지침을 사용하여 단백질 언어와 인간 언어를 정렬하고, 단백질 언어와 인간 언어 간의 양방향 생성 기능을 탐색하고, 생물학적 시퀀스를 대규모 언어 모델로 통합하고, 두 언어 간의 격차를 효과적으로 메웁니다. 다수의 양방향 단백질 텍스트 생성 작업에 대한 실험은 InstructProtein이 기존의 최첨단 LLM보다 성능이 우수하다는 것을 보여줍니다.
자세한 내용을 보려면 클릭하세요: ACL2024 메인 컨퍼런스에 선정됨 | InstructProtein: 지식 지침을 사용하여 단백질 언어를 인간 언어에 맞추기

또한 연구팀은 "사전 훈련 및 프롬프트" 프레임워크를 기반으로 하는 다목적 단백질 서열 설계 방법인 PROPEND를 제안했습니다.프롬프트를 통해 뼈대, 청사진, 기능 라벨과 이들의 조합을 통해 다양한 속성을 직접 제어할 수 있으며, 이 방법은 폭넓은 실용성과 정확성을 가지고 있습니다. 시험관 내 실험에서 테스트한 5가지 시퀀스 중 PROPEND의 최대 기능 회복률은 105.2%에 도달하여 기존 설계 파이프라인의 50.8%를 크게 넘어섰습니다.
원본 논문:

https://www.biorxiv.org/content/10.1101/2024.11.17.624051v1

현재, 팀에서 공개한 결과 중 다수는 오픈 소스로 공개되었습니다. 또한, 그들은 장기적으로 뛰어난 박사후 연구원 100명, R&D 엔지니어 및 기타 정규직 연구원을 모집하고 있습니다. 누구나 참여를 환영합니다~

연구실 Github 홈페이지:
http://github.com/zjunlp

http://github.com/zjukg