HyperAI초신경

학술 공유 | 데이터 부족을 두려워하지 마세요! 상하이 교통대학교 박사후 연구원인 주쯔이(Zhou Ziyi)는 단백질 언어 모델의 소표본 학습 방법인 FSFP(소표본 학습 방법)를 설명합니다.

特色图像

사전 훈련된 단백질 언어 모델(PLM)은 수백만 개 단백질의 아미노산 서열 분포 특징을 비지도 방식으로 학습할 수 있으며, 단백질 서열과 기능 간의 암묵적 관계를 밝히는 데 큰 잠재력을 보여줍니다.

이에 상하이 교통대학교 자연과학대학/물리천문학대학/장강고등연구원/약학대학 홍량 교수 연구팀과 상하이 인공지능연구실의 젊은 연구원 탄판(Tan Pan)은우리는 단백질 언어 모델을 위한 소규모 샘플 학습 방법을 개발했는데, 이는 매우 적은 양의 습식 실험 데이터를 사용하여 기존 단백질 언어 모델의 돌연변이 효과에 대한 예측 성능을 크게 향상시킬 수 있습니다.실제 적용에 있어서 큰 잠재력이 있는 것으로 나타났습니다.

"AI4S를 만나다" 라이브 시리즈의 세 번째 에피소드에서 HyperAI는 연구 논문의 첫 번째 저자이자 상하이 교통대학교 자연과학 연구소와 상하이 응용수학 국가연구센터의 박사후 연구원인 주쯔이를 초대하게 되어 영광이었습니다. 저우쯔이 박사는 9월 25일 온라인 라이브 방송 형식으로 단백질 언어 모델의 소규모 샘플 학습 방법을 여러분과 공유하고, AI가 지원하는 지향 진화에 대한 새로운 아이디어를 탐구할 예정입니다.

라이브 방송을 예약하려면 클릭하세요:

https://hdxu.cn/6Bjom

QR 코드를 스캔하고 "AI4S"라고 댓글을 남겨 토론 그룹에 참여하세요↓

이벤트 세부 정보

주제를 공유하세요

단백질 언어 모델을 위한 Few-shot 학습 방법

소개

단백질 언어 모델(PLM)은 단백질 기능 예측에 획기적인 발전을 이루었지만, 높은 정확도를 달성하기 위해서는 많은 양의 실험 데이터를 미세 조정해야 하는 경우가 많습니다. 본 논문에서는 PLM을 위한 소규모 샘플 학습 방법을 소개하는데, 이 방법을 사용하면 수십 개의 학습 샘플만 사용하여 PLM의 돌연변이 효과 예측 성능을 크게 향상시킬 수 있습니다.

논문 리뷰

HyperAI는 이전에 Ziyi Zhou 박사를 첫 번째 저자로 하여 "소수 학습을 통한 습식 실험실 데이터 최소화로 단백질 언어 모델의 효율성 향상"이라는 연구 논문을 해석하여 공유했습니다.

자세한 보고서를 보려면 클릭하세요: 20개의 실험 데이터가 AI 단백질 개발의 이정표를 세웠습니다! 상하이 교통대학교와 상하이 AI 연구소가 단백질 사전 학습 모델을 효과적으로 최적화하기 위해 FSFP를 공동 출시했습니다.

FSFP 방법은 3단계로 구성됩니다.

메타 훈련을 위한 보조 작업을 구축하고, 보조 작업에 대한 PLM을 훈련하고, LTR을 통해 PLM을 대상 작업으로 전송합니다.

이 중 FSFP는 ListMLE 손실을 사용하여 돌연변이 적합도의 순위를 매기는 방법을 학습합니다. 각 학습 반복에서 PLM이 예측한 학습 샘플 순위는 실제 순위에 맞춰 수정됩니다. 순위 학습 방식은 메타 학습 단계의 내부 최적화 단계와 전이 학습 단계에 동시에 적용됩니다.

데이터셋 수집

본 연구에서는 단백질 돌연변이 데이터 세트(ProteinGym)를 벤치마크 데이터 세트로 선택했습니다. 이 데이터 세트에는 87개의 DMS 시퀀싱 실험에서 나온 총 약 150만 개의 미스센스 변형이 포함되어 있습니다.

ProteinGym 단백질 돌연변이 데이터 세트 다운로드 주소:
https://go.hyper.ai/6GvFD

FSFP 방법 평가

* 평균 성능 측면에서 FSFP로 학습한 PLM은 모든 학습 데이터 크기에서 다른 기준보다 지속적으로 우수한 성능을 보였습니다.

* 외삽법 성능 평가 측면에서 FSFP로 훈련된 PLM의 스피어만 상관관계 평가가 우수합니다.

* FSFP는 Phi29 DNA 중합효소의 엔지니어링 변형에 성공적으로 적용되어 양성률을 크게 향상시켰습니다.

청중에게 주는 혜택:

1. PLM의 기본 원리와 단백질 공학에서의 응용을 이해합니다.

2. PLM의 기본 원리와 단백질 공학에서의 응용을 이해합니다.

3. AI가 지원하는 지향 진화에 대한 새로운 아이디어 탐색

상하이 교통대학교 홍량 연구팀

상하이 교통대학의 홍량 연구 그룹은 상하이 교통대학 자연과학연구소에 소속되어 있습니다. 연구 그룹의 연구 방향은 주로 AI 단백질 및 약물 설계, 분자 생물 물리학을 포함합니다.

* 단백질 지향적 변형, 효소 공학 지향적 진화, 인공지능 기술을 기반으로 한 보조 약물 설계

* 중성자 산란, 싱크로트론 방사선 국가 대형 과학 시설, 단일 분자 형광, 분자 동역학 시뮬레이션 및 인공지능 알고리즘 등을 이용하여 생물 거대 분자의 동역학, 생물 거대 분자 냉동 보존 기술 및 원리를 연구합니다.

연구팀은 유익한 결과를 얻었다. 지금까지 그들은 77편의 연구 논문을 발표했으며, 그 중 다수가 Nature 저널에 게재되었습니다.

AI4S 라이브 시리즈를 만나보세요

HyperAI(hyper.ai)는 데이터 과학 분야에서 중국 최대의 검색 엔진입니다. AI for Science의 최신 과학 연구 결과에 초점을 맞추고 Nature, Science 등 최고 저널에 실린 학술 논문을 실시간으로 추적합니다. 지금까지 100편이 넘는 AI for Science 논문의 해석을 완료했습니다.

또한, 우리는 중국 유일의 AI for Science 오픈소스 프로젝트인 awesome-ai4s도 운영하고 있습니다.

프로젝트 주소:

https://github.com/hyperai/awesome-ai4s

AI4S의 대중화를 더욱 촉진하고, 학술 기관의 과학 연구 결과의 보급 장벽을 더욱 낮추고, 이를 더 광범위한 산업 학자, 기술 애호가 및 산업 단위와 공유하기 위해 HyperAI는 "AI4S를 만나보세요" 영상 칼럼을 기획하여 AI for Science 분야에 깊이 관여하는 연구자 또는 관련 단위를 초대하여 영상 형식으로 연구 결과와 방법을 공유하고, 과학 연구 진행 및 홍보 및 구현 과정에서 AI for Science가 직면한 기회와 과제를 함께 논의하여 AI for Science의 대중화와 보급을 촉진합니다.

효율적인 연구 그룹과 연구 기관의 참여를 환영합니다! QR 코드를 스캔하여 "Neural Star" WeChat에 추가하면 자세한 내용을 확인할 수 있습니다↓