NeurIPS 2024에 선정되었습니다! Westlake University는 AlphaFold 3를 더욱 보완하는 범용 분자 역접힘 모델 UniIF를 제안했습니다.

분자 역접힘은 약물 및 재료 설계에서 중요한 역할을 하며, 과학자들이 원하는 구조의 새로운 분자를 합성할 수 있게 해줍니다. 과거 연구는 주로 거대 분자나 소분자의 역접힘에 초점을 맞추었고, 일반 분자의 역접힘에 대한 연구는 거의 없었습니다.
통합된 일반 모델을 구축하는 데는 세 가지 주요 과제가 있습니다.① 단위의 차이: 대형 분자는 일반적으로 단백질의 경우 아미노산, RNA의 경우 뉴클레오티드와 같이 미리 정의된 미세 구조를 기본 단위로 사용합니다. 작은 분자는 원자를 기본 단위로 사용합니다. ② 기하학적 특징 추출: 다양한 연구에서 거리, 각도, 텐서곱 등 다양한 기하학적 특징 추출 전략을 사용하며 통일된 특성화 방법이 부족합니다. ③ 시스템 규모: 작은 분자는 글로벌 주의 메커니즘이 장기 의존성을 학습하도록 하지만 이는 대형 분자에서는 작동하지 않는 경우가 많습니다.
위의 과제를 해결하고 분자 구조 예측에서 RoseTTAFold All-Atom 및 AlphaFold 3가 이룬 진전을 더욱 보완하기 위해,웨스트레이크 대학 미래산업연구센터의 한 팀은 모든 분자의 역접힘에 대한 통합 모델인 UniIF를 제안했습니다.연구진은 UniIF의 효과를 입증하기 위해 단백질 설계, RNA 설계, 물질 설계를 포함한 여러 과제에 대한 포괄적인 실험을 수행했습니다. 결과는 UniIF가 모든 작업에서 최첨단 성능을 달성한다는 것을 보여줍니다.
"UniIF: Unified Molecule Inverse Folding"이라는 제목의 관련 연구는 NeurIPS 2024 최고 학회에 선정되었습니다.
연구 하이라이트:
* 제안된 통합 모델 UniIF는 일반적인 분자 역접힘에 대한 다재다능하고 효과적인 솔루션을 제공합니다.
* 모델은 두 가지 수준에서 통합됩니다. 데이터 수준에서는 로컬 좌표계의 구성과 기하학적 특징의 초기화를 포함하여 모든 분자에 대한 통합 블록 그래프 데이터 형식이 제안됩니다. 모델 수준에서 모든 분자의 3차원 상호 작용을 포착하기 위해 기하학적 블록 주의 네트워크가 도입되었습니다.
* 연구진은 제안된 방법이 단백질 설계, RNA 설계, 물질 설계라는 세 가지 주요 작업에서 최첨단 방법보다 우수한 성능을 보인다는 것을 입증했습니다. 이러한 성과는 머신 러닝, 신약 개발, 재료 과학 커뮤니티에 긍정적인 영향을 미칠 수 있습니다.

서류 주소:
https://arxiv.org/abs/2405.18968
공식 계정을 팔로우하고 "Molecular Reverse Folding"에 답글을 남겨 전체 PDF를 받으세요.
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 세 가지 작업 실험에 해당하는 데이터 세트를 선택하세요.
단백질 설계 과제에서,연구진은 CATH4.3 데이터 세트에서 UniIF를 평가했습니다. 데이터 세트는 CATH 위상 분류 코드에 따라 분할되어 16,631개의 훈련 샘플, 1,516개의 검증 샘플, 1,864개의 테스트 샘플을 생성합니다.
일반화 능력을 평가하기 위해 연구진은 일부 기준선이 데이터 유출 위험이 있는 사전 훈련된 ESM2 모델을 사용한다는 점을 고려하여 시간 분할 전략을 채택했습니다. 시간 분할 평가는 특정 날짜 이전의 데이터를 훈련 세트에 할당하고, 해당 날짜 이후의 데이터를 테스트 세트에 할당합니다. 구조의 시간적 평가를 위해 훈련 중에 발견되지 않은 새로운 결정 구조가 포함된 CASP15 데이터 세트를 사용합니다. 시퀀스의 시간적 평가를 위해 2023년 11월 23일 이전 30일 이내에 공개된 76개의 단백질 시퀀스를 포함하는 NovelPro 데이터 세트를 사용했으며, 구조는 AlphaFold 2를 통해 예측했습니다.
RNA 디자인 작업에서연구진은 RDesign이 수집한 데이터 세트에 대해 RNA 실험을 수행했습니다. 이 데이터 세트에는 2,218개의 RNA 3차 구조가 포함되어 있으며, 이 구조들은 구조적 유사성에 따라 훈련 세트(1,774개 구조), 테스트 세트(223개 구조), 검증 세트(221개 구조)로 나뉩니다. 데이터 샘플 수가 적었기 때문에 연구자들은 3번의 독립적인 실행을 통해 중앙값 회수율과 표준 편차를 보고했습니다.
Material Design 작업에서는연구진은 단일 금속 산화물에서 파생된 나노물질의 이미지로 구성된 CHILI-3K 데이터 세트에서 UniIF를 평가했습니다. 이 데이터 세트에는 금속 원소 53개와 비금속 원소 1개(산소)가 포함되어 있으며, 총 그래프는 3,180개, 노드는 6,959,085개, 에지는 49,624,440개입니다.
모델 아키텍처: 일반 분자 역폴딩을 위한 통합 모델인 UniIF
아래 그림에서 보듯이, 연구자들은 일반적인 분자 역접힘에 대한 통합 모델을 제안했습니다.
① 이 모델은 모든 유형의 분자를 블록 그래프로 변환합니다. 거대 분자의 경우 아미노산과 뉴클레오티드를 기반으로 하는 사전 정의된 프레임워크가 사용됩니다. 소형 분자의 경우, 각 블록에 대한 로컬 프레임워크는 GNN 계층을 통해 학습됩니다.
② Geometric Featurizer를 사용하여 기하학적 노드 피처와 에지 피처를 초기화합니다.
③ 블록 그래프 주의 계층이 제안되며, 이를 기반으로 블록 그래프 신경망이 구성되어 풍부한 블록 표현을 표현하는 방법을 학습합니다.
④ 마지막으로, UniIF가 단백질 설계, RNA 설계, 재료 설계를 포함한 다양한 작업에서 경쟁력 있는 성과를 달성할 수 있음을 보여줍니다.

빌딩 블록 다이어그램:모델 아키텍처의 첫 번째 단계는 모든 유형의 분자를 표현하기 위해 블록 다이어그램을 도입하는 것입니다. 핵심은 크기가 다양한 불규칙한 원자 집합을 고정된 크기의 규칙적인 블록 표현으로 변환하는 것입니다. 연구진은 모든 분자의 모델링을 통합하기 위해 프레임 기반 블록 표현을 도입했습니다. 여기서 블록은 등가 프레임과 불변 고유 벡터를 포함하고, 로컬 프레임은 축 행렬과 변위 벡터를 포함합니다. 대형 분자의 경우, 축 매트릭스는 아미노산과 뉴클레오티드를 기준으로 미리 정의됩니다. 소형 분자의 경우, 소형 분자에 대한 사전에 공통된 구조 패턴이 없기 때문에 축 행렬을 학습해야 합니다. n개의 블록으로 구성된 분자가 주어졌을 때, 연구자들은 kNN 알고리즘을 사용하여 블록 그래프를 구성했습니다.

블록 그래프 기능 추출:작은 분자의 경우 미리 정의된 로컬 프레임을 사용할 수 없으므로 연구자는 각 원자에 대한 로컬 프레임을 학습해야 합니다. 즉, 분자가 주어지면 GNN 계층을 사용하여 원자 표현을 초기화한 다음 기하학적 특징 추출기를 사용하여 기하학적 노드 특징과 에지 특징을 초기화합니다.
블록 그래프 주의 모듈:연구진은 모든 분자의 3차원 상호작용을 포착하기 위해 기하학적 상호작용, 상호작용 주의, 가상 장기 의존성 모듈을 포함하는 기하학적 블록 주의 네트워크를 도입했습니다.
연구 결과: UniIF는 모든 작업에서 최첨단 방법을 능가합니다.
연구진은 다음을 포함한 다양한 역접힘 작업과 절제 연구를 통해 UniIF의 효과를 입증했습니다.
* 단백질 설계(T1): 표적 구조로 접힐 수 있는 단백질 서열 설계
* RNA 디자인(T2): 표적 구조로 접힐 수 있는 RNA 시퀀스를 디자인합니다.
* Material Design(T3): 알려진 재료 구조로부터 안정적인 구성을 발견
① 단백질 설계(T1)
단백질 설계는 표적 구조로 접힐 수 있는 단백질 서열을 설계하는 것을 목표로 하며, 연구자들은 다양한 설정(ESM2 포함 및 미포함)과 여러 데이터 세트(CATH4.3, CASP, NovelPro)에서 결과를 제공합니다. 다음 표에서 볼 수 있듯이 ESM2가 없는 순수 역 폴딩 모델을 사용하면 UniIF는 모든 데이터 세트에서 가장 좋은 성능을 달성하여 효과성을 보여줍니다.
*LMDesign과 KWDesign에는 ESM2가 포함됩니다. StructGNN, GraphTrans, GCA, GVP, AlphaDesign, ProteinMPNN 및 PiFold에는 ESM2가 포함되지 않습니다.
CATH4.3에서는 강력한 기준 모델로 인해 전반적인 개선은 제한적이지만, 시간 분할 평가에서는 일반화 능력 측면에서 UniIF의 장점이 강조됩니다. UniIF는 학습 가능한 매개변수가 적어 강력한 기준 PiFold를 능가합니다. 시간 분할 평가에서 UniIF는 ESM2 기반 접근 방식을 포함한 모든 기준보다 상당한 차이로 우수한 성과를 보였습니다. 새로운 시퀀스가 포함된 NovelPro에서 UniIF는 시퀀스 최적화를 위해 ESM2를 사용하여 LMDesign과 KWDesign보다 우수한 성과를 보였습니다.이는 UniIF가 실용적인 응용 분야에 필수적인 우수한 일반화 능력을 가지고 있음을 나타냅니다.

② RNA 디자인(T2)
RNA 설계의 목표는 표적 구조로 접힐 수 있는 RNA 서열을 설계하는 것입니다. 아래 표에서 볼 수 있듯이 UniIF는 모든 경우에서 가장 뛰어난 성능을 달성했습니다. 이는 PiFold와 같은 기존의 강력한 기준 모델이 단백질 설계에서만 뛰어난 성과를 보인 것에 비하면 상당한 개선입니다. 보고된 바에 따르면,UniIF는 단백질과 RNA 설계 작업 모두에서 최첨단 성능을 달성한 최초의 모델로, 다재다능함과 효과성을 입증합니다.

③ 머티리얼 디자인(T3)
새로운 재료를 발견하려면 알려진 물질 구조 내에서 안정적인 원자 조합을 찾는 것이 중요하므로 연구진은 이 새로운 작업에 대한 UniIF의 성능도 평가했습니다. 다음 표에서 보는 바와 같이,UniIF는 모든 기준 모델보다 상당히 우수한 성과를 보였습니다.

④ 사례 연구
아래 그림에서 연구자들은 설계된 단백질과 RNA 서열을 보여줍니다. 또한, 설계된 서열은 AlphaFold 3를 사용하여 구조에 맞게 다시 접혔습니다. 실제 구조(회색), PiFold 구조(녹색) 및 UniIF 구조(분홍색)를 정렬하여 비교했습니다. 연구자들은 다음을 관찰했습니다.UniIF는 회복률과 제곱평균편차(RMSD) 모두에서 개선을 이루어 역폴딩 작업에서의 효과를 입증했습니다.

UniIF 모델은 AlphaFold 3를 더욱 보완합니다.
최근 몇 년 동안 일반적인 분자 학습에 대한 관심이 높아지고 있으며, RoseTTAFold All-Atom(RFAA)과 AlphaFold 3는 이 방향에서 주목할 만한 성공을 거둔 두 가지 대표적인 모델입니다.
2024년 3월 7일, 데이비드 베이커는 "RoseTTAFold All-Atom을 이용한 일반화된 생체 분자 모델링 및 설계"라는 제목의 연구 논문을 Science에 발표했습니다. 연구팀은 아미노산과 DNA 염기의 잔류물 기반 표현과 다른 모든 그룹의 원자적 표현을 결합하여 단백질, 핵산, 소분자, 금속, 주어진 서열과 화학 구조의 공유 결합 변형을 포함하는 어셈블리를 모델링하는 RoseTTAFold All-Atom(RFAA)을 개발했습니다.
원본 논문:
https://www.science.org/doi/10.1126/science.adl2528
2024년 5월 9일, 데미스 하사비스, 존 점프 등은 Nature에 "AlphaFold 3를 이용한 생체 분자 상호작용의 정확한 구조 예측"이라는 제목의 연구 논문을 발표했습니다. 이 연구에서는 단백질 데이터 뱅크에 있는 거의 모든 분자 유형을 포함하는 복합체의 구조를 예측할 수 있는 새로운 모델인 AlphaFold 3를 출시했습니다. 여기에는 리간드(소분자), 단백질, 핵산(DNA와 RNA)이 어떻게 모여서 서로 상호 작용하는지, 그리고 이러한 분자 시스템에 대한 번역 후 변형과 이온의 구조적 효과를 예측하는 것도 포함됩니다. 이를 통해 연구자들은 원자 수준에서 생물학적 분자 시스템의 구조를 정확하게 관찰할 수 있습니다.
원본 논문:
https://www.nature.com/articles/s41586-024-07487-w
두 모델을 자세히 살펴보면, RFAA는 원자 결합 다이어그램을 사용하여 작은 분자를 표현하고 프레임워크 다이어그램을 사용하여 큰 분자를 표현합니다. AlphaFold 3는 모든 분자에 적용할 수 있는 원자 표현과 라벨 표현이라는 두 계층 표현을 사용합니다. 태그 개념은 위에서 언급한 블록 개념과 동일하며, 아미노산이나 뉴클레오티드와 같은 원자 그룹을 나타냅니다.
GET과 EPT는 소형 및 대형 분자 모두에 대한 블록 표현을 채택하고 새로운 등방성 변환기 프레임워크를 도입한 최근 제안된 두 가지 모델입니다. 소분자의 원자 결합 다이어그램을 지정하는 RFAA와 달리, 이 논문에서 소개한 UniIF 모델은 모든 분자 유형에 대해 통합된 블록 다이어그램을 채택하여 원자 결합 다이어그램이 필요하지 않습니다. 또한 이 모델은 AlphaFold 3, GET, EPT와 다른 각 블록에 대한 벡터 기반을 도입했습니다.
보편적 분자 모델을 구축하는 과제는 어느 정도 해결되었기 때문에,UniIF 모델은 RoseTTAFold All-Atom, AlphaFold 3 등의 "선행 모델"이 분자 구조 예측 분야에서 이룬 진전을 더욱 보완하는 것으로 볼 수 있습니다.미래에는 생물학적 거대 모델을 지속적으로 반복함으로써 연구자들이 생물학적 세계를 다시 이해하고 약물 발견을 재고하는 데 도움이 될 것이며, 이는 결국 인류 전체에 이로움이 될 것입니다.
참고문헌:
1.https://arxiv.org/abs/2405.18968
2.https://mp.weixin.qq.com/s/8OvxVlUuZZZ2gcepIl5UBw
3.https://www.jiqizhixin.com/articles/2024-03-08-6
4.https://m.thepaper.cn/newsDetail_forward_28984037
