HyperAI초신경

ICLR 2025 Oral에 선정된 Tsinghua AIR의 Zhou Hao 팀은 단백질 패밀리 진화를 해독하기 위한 단백질 사전 훈련에 대한 새로운 패러다임을 제안했습니다.

特色图像

청화대학교의 AIR GenSI 연구 그룹과 청화대학교 약학부는 공동으로 단백질 계열별 생성 모델링 도구인 ProfileBFN(Profile Bayesian Flow Network)을 제안했습니다. ProfileBFN은 다중 시퀀스 정렬(MSA) 프로파일의 관점에서 이산 베이지안 흐름 네트워크를 확장하여 효율적인 단백질 패밀리 설계를 달성합니다. 경험적 결과는 다음을 보여줍니다.ProfileBFN은 다양하고 새로운 단백질 패밀리를 생성하는 동시에, 패밀리의 구조적 특징을 정확하게 포착할 수 있습니다.

관련 연구 결과는 "프로파일 베이지안 흐름을 통한 단백질 패밀리 설계 조정"이라는 제목으로 ICLR 2025의 구두 논문으로 선정되었습니다. 동시에, 팀의 또 다른 업적인 CrysBFN도 ICLR 2025 Spotlight에 선정되었습니다. 연구 논문의 제목은 "재료 생성을 위한 주기적 베이지안 흐름"입니다.

지난 세션에서 팀은 기하학적 베이지안 흐름 네트워크 GeoBFN을 제안했으며, 관련 결과는 "베이지안 흐름 네트워크를 사용한 3D 분자의 통합 생성 모델링"이라는 제목으로 ICLR 2024 Oral에 선정되었습니다.

팀원들이 ICLR 2025 컨퍼런스 참가자들과 소통하고 있습니다.
팀원들은 ICLR 2025 컨퍼런스에서 연구 작업을 소개했습니다.

논문 링크:

https://go.hyper.ai/Dg5ha

오픈소스 프로젝트인 "awesome-ai4s"는 200개 이상의 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

다중 시퀀스 정렬: 단백질 구조 예측의 초석

다중 서열 정렬(MSA)은 세 개 이상의 생물학적 서열(DNA, RNA 또는 단백질)을 정렬하는 과정을 말합니다. 다중 시퀀스 정렬은 기능적, 구조적 또는 진화적 관계로 인해 유사한 영역을 발견하고 식별하는 데 도움이 되며, 생물학적 거대 분자 간의 관계에 대한 보다 포괄적인 관점을 제공합니다.

최근 몇 년 동안 MSA 정보를 활용하는 것이 단백질 설계의 중요한 부분이 되었습니다. AlphaFold 및 ESM과 같은 중요한 작업에는 MSA 정보를 인코딩하는 특수 모듈이 있습니다.

AF2는 MSA를 기능 추출을 위한 중요한 도구로 사용합니다.
ESM의 MSA 변압기

성공에는 여러 가지 순서가 있고, 실패에는 여러 가지 순서가 있습니다.

MSA는 진화적 정보의 보고이지만, 기존 모델은 이를 밝혀낼 수 있는 능력을 과대평가하는 듯합니다. 기술의 발전으로 심층 생성 모델 입력의 MSA 심도는 지속적으로 증가했지만, 그 효과는 병목 현상에 부딪혔으며, 이로 인해 MSA 정보를 추가하는 것의 비용 효율성에 의문이 제기되었습니다. 근본 원인은 MSA의 양과 질 모두에 심각한 불확실성이 있다는 것입니다.

MSA를 대형 모델에 프롬프트 단어 입력으로 사용할 경우 효율성과 입력 길이 간의 관계는 다음과 같습니다.

연구자들은 다중 서열 정렬에서 일정 수준의 유사성을 충족하는 서열을 상동 서열이라고 부릅니다. 양적인 측면에서 볼 때, 일부 "고아" 단백질의 경우 상동 서열이 10개를 넘지 않는 반면, 일부 단백질의 경우 10,000개가 넘는 상동 서열을 검색할 수 있어 대규모 모델에서는 큰 혼란을 초래하고 자원 낭비와 효율성 저하를 초래합니다.

사실, 자연의 경이로움은 인간의 상상을 초월합니다. 수십억 년에 걸친 진화를 거치면서 수렴 구조는 자연선택의 효과를 반영하는 반면, 돌연변이는 진화에 대한 새로운 가능성을 제공합니다. 특수한 환경에 있는 이러한 특수한 종들은 종종 진화 나무의 시작 부분에 있는 원래의 모습 정보를 유지하는 경우가 많은데, 이는 바로 공진화 이론의 추론을 위한 기초가 됩니다. 동일한 시퀀스를 모델 입력으로 사용하면 이 정보는 다른 많은 무의미한 정보에 압도되어 높은 확률의 표현만 모델링할 수 있습니다. 이를 해결하려면ProfileBFN은 동일한 시퀀스의 각 클러스터를 개수에 독립적인 통합된 표현으로 모델링합니다.

좋은 동족 서열은 가능한 한 많은 동족 정보를 포함해야 합니다. 실험 결과, 대부분의 경우 가장 큰 정보 엔트로피를 가진 몇 개의 동족 시퀀스를 사용하면 수백 개의 동족 시퀀스를 사용하는 것과 같은 효과를 얻을 수 있는 것으로 나타났습니다. 일부 상동 서열은 단지 몇 개의 아미노산만 다른데, 이는 모델에 많은 오해의 소지가 있는 중복 정보를 제공합니다.

프로필: 차세대 단백질 기반 모델의 초석

과학은 발견에 기초합니다.ProfileBFN의 혁신은 원래 MSA에 존재하는 막대한 양의 정보 중복을 발견하는 데 있습니다. 100개의 동일한 시퀀스를 정보 엔트로피 방법에 따라 정렬하면, 모델은 처음 20개만 사용하여 학습시켜도 동일한 효과를 얻을 수 있습니다. 이를 위해서는 단일 시퀀스와 다중 시퀀스 간의 브리지를 구축해야 하며, 이것이 Profile이 등장하는 이유입니다.

직관적으로 이해하자면 Profile은 다중 시퀀스 정렬에서 아미노산 발생 횟수를 열별로 나타낸 통계입니다. 또한 길이가 100인 1w개의 동족 시퀀스가 있는 경우 Profile은 이를 [10000,100]에서 [20,100](20개의 공통 아미노산) 목록으로 직접 압축하여 계산 복잡성을 크게 단순화합니다. 특히, 단일 시퀀스도 특수 프로필로 간주될 수 있는데, 다만 각 열에 1이 하나만 있다는 점이 다릅니다.

ProfileBFN은 MSA에서 Profile로 압축하면 원래 예상했던 심각한 정보 손실이 발생하지 않을 뿐만 아니라 모델 성능이 크게 향상된다는 것을 발견했습니다.이는 다음과 같이 이해될 수 있습니다. 프로필 구축의 큰 물결 속에서,각각의 상동 서열은 이 위치에 나타나는 아미노산의 종류에 대해 투표를 하며, 사소한 모순을 감추고 전체적인 경향을 강조합니다.

ProfileBFN의 예상치 못한 강력한 성과

다중 시퀀스 정렬을 기반으로 하는 기존 방법과 비교했을 때,ProfileBFN은 기존 모델보다 10배 적은 데이터에 의존하고 단백질 서열에 대한 맥락적 정보를 1.5배 더 많이 학습합니다.효과는 즉각적입니다!

각 그림: 왼쪽 위는 GT이고, 오른쪽 아래는 모델 예측 컨텍스트입니다. 왼쪽 그림: ProfileBFN이 예측한 컨텍스트. 오른쪽 그림: 동족 시퀀스(MSA)가 예측한 맥락.

탐색 후 ProfileBFN이 다양한 하위 작업에 촉진 효과가 있는 것으로 확인되었습니다.

* 효소 분류:기능적 충실도를 향상시키고 스크리닝 비용을 절감합니다.

* 단백질 표현 학습:멀티태스킹 기능 추출 지원

* 단백질 구조 예측:동족성 정보를 강화하고 모델링 정확도를 향상시킵니다.

* 항체 생산:우수한 마이그레이션 효과, 기능 영역의 정확한 예측

효소는 촉매 활성을 지닌 특수한 종류의 단백질이며, 그 기능적 특이성은 일반적으로 EC 번호(효소 위원회 번호)로 표시됩니다. 이 연구에서는 ProfileBFN이 생성한 새로운 효소 후보가 EC 번호 측면에서 야생형 효소와 매우 일치한다는 것을 발견했는데, 이는 생성된 단백질이 높은 수준의 기능적 일관성을 유지한다는 것을 의미합니다. 이러한 특징은 실험적 스크리닝의 어려움을 크게 줄이고 새로운 효소 설계의 성공률을 향상시킵니다.

ProfileBFN은 단백질을 생성하는 동시에 모델 내에서 정확한 단백질 표현을 구축합니다. 연구자들은 이러한 표현을 추출했습니다.단백질 열 안정성, 단백질 상호작용, 단백질 세포 내 위치 등 다양한 데이터 세트를 바탕으로 미세 조정이 이루어졌습니다. 연구 결과에 따르면 ProfileBFN이 제공하는 표현은 분류와 같은 하위 작업에서 모델 성능을 효과적으로 개선할 수 있는 것으로 나타났습니다. 이는 이것이 생성 모델일 뿐만 아니라 강력한 기능 학습 도구라는 것을 시사합니다.

단백질 구조 예측은 구조생물학에서 중요한 문제이다.특히 고아 단백질(즉, 상동 단백질이 매우 적은 단백질)의 경우 기존 방법의 정확도는 크게 제한됩니다. 연구에 따르면 ProfileBFN은 상동성 정보 증강제로 사용될 수 있는 것으로 나타났습니다.적은 양의 MSA 데이터만으로도 더욱 고품질의 상동 단백질이 생성되어 AlphaFold 시리즈 모델의 예측 정확도가 향상됩니다. 이러한 기능을 통해 ProfileBFN은 구조 생물학 분야에서 광범위한 응용 가능성을 갖게 됩니다.

항체는 항원에 특이적으로 결합할 수 있는 기능성 단백질로, 면역 및 병리학 연구에 매우 중요합니다. 항체 생성에서 ProfileBFN의 잠재력을 탐색하려면연구진은 OAS(관찰 항체 공간) 항체 서열 데이터베이스를 기반으로 모델을 미세 조정했습니다.결과는 ProfileBFN이 다양하고 고품질의 항체 시퀀스를 생성하는 데 우수한 성능을 보인다는 것을 보여주었습니다.

ProfileBFN의 놀라운 효과는 이 새로운 연구가 MSA 이후 시대에 생물학적 시퀀스를 생성하기 위한 패러다임을 제공한다는 사실에서 비롯됩니다.

* MSA는 입력으로 교육 과정에 직접 참여하지 않으며 추가적인 교육 비용을 발생시키지 않습니다.

* 추론 단계에서는 단일 시퀀스와 MSA가 균일하게 모델링됩니다.

* 동족 시퀀스는 모델 입력 및 출력입니다.

BFN은 사전 정보를 완벽하게 활용합니다.

Profile 정보는 원래의 동족 시퀀스보다 훨씬 더 중요하므로, Profile 정보를 어떻게 사용해야 할까요? 베이지안 흐름 네트워크 BFN은 Profile에 완벽하게 들어맞습니다! 이는 두 가지 측면에서 반영됩니다.

* BFN은 분포에서 분포로의 프로세스를 모델링합니다. 입력은 Profile 표현이고 출력은 여전히 Profile 표현입니다.

* 처음부터 추론하는 대신 BFN은 조건 추론을 위해 사전에 Profile 정보를 도입할 수 있습니다.

자기회귀 모델과 확산 모델과 같은 기존 모델은 입력으로 데이터(토큰)를 필요로 하며, 프로필 정보를 처리하면 알고리즘의 복잡성이 증가합니다.

BFN을 모델 골격으로 사용하면 ProfileBFN은 다음을 더욱 달성할 수 있습니다.

* 업무 단순화. 동족 정보의 조건부 생성은 프로파일 정보 모방이 됩니다.

* 효율성이 향상되었습니다. 샘플링 범위가 줄어들고 효율성이 향상됩니다.

ProfileBFN은 습식 테스트의 구세주가 될 것으로 기대됩니다.

합성생물학 등의 과제에서는 연구자들이 흔히 겪는 문제로 긴 주기, 단일 평가 지표, 신뢰성 부족 등이 있습니다. ProfileBFN은 단백질 기반 모델로서, 제한된 리소스로 더 많은 상동 정보를 통합하고, 특정 사전 정보를 최대한 활용하며, 다양한 지표에 대한 좋은 마이그레이션 효과를 가지므로, 의심할 여지 없이 후보 단백질 합성과 지향성 진화를 위한 최상의 선택이 됩니다.

연구 그룹에 대하여

청화대학교 지능산업연구소 산하 생성적 상징 지능 연구 그룹(GenSI)의 연구 분야는 LLM과 AI for Science의 두 가지 방향을 아우릅니다. 두 방향이 서로를 촉진하고, 이를 통해 과학을 위한 AGI(AI 과학자)의 궁극적인 사명을 달성할 것으로 기대됩니다.

구체적인 연구 방향으로는 차세대 대규모 사전 학습 기술, 대규모 강화 학습(Large Scale RL), 심층 생성 모델(Deep Generative Models) 및 과학 데이터에 대한 응용 분야가 포함되며, 기본 인공 지능 알고리즘과 과학적 문제의 통합 및 혁신에 중점을 둡니다. 현재 팀은 심층 생성 모델의 최첨단 이론과 확장 가능한 구조 기반 생성 모델 방법의 탐구에 집중하고 있으며, LLM 및 AI4Sci 분야에서 LLM의 추론 능력을 향상시키고 AF3 수준의 구조 생성 작업을 뛰어넘는 등 현실적이고 어려운 과학적 문제를 해결하는 데 전념하고 있습니다.

다음 채널을 통해 팀에 연락할 수 있습니다⬇️

* 홈페이지:https://go.hyper.ai/7ye91

* 이메일: gen_si@163.com

* 샤오홍수/지후: GenSI

* 트위터: @GenSI_official

* 위챗: 15805171115