Command Palette
Search for a command to run...
Dan Kalifa Uriel Singer Kira Radinsky

초록
단백질은 생물학적 과정에서 핵심적인 역할을 하며, 생체 내 복잡한 메커니즘을 이해하는 데 필수적이다. 약물 개발, 합성 생물학, 질병 발생 메커니즘 이해 등의 분야에서의 발전을 위해서는 정확한 단백질 표현 방식이 필수적이다. 기존의 방법론은 주로 일차원(1D) 구조에 초점을 맞추며 아미노산 서열에 주목한다. 그러나 이러한 접근은 단백질의 기능성과 상호작용을 결정짓는 핵심적인 삼차원(3D) 구조적 특성을 간과하고 있다. 1D와 3D 모달리티를 동시에 활용하려는 초기 시도들은 단일 모달리티 표현에 비해 제한적인 성능 향상을 보였다. 본 연구에서는 단백질의 1D 구조와 3D 구조를 동시에 통합된 표현 방식으로 학습할 수 있도록 설계된 새로운 단백질 표현 학습 프레임워크인 FusionProt을 제안한다. FusionProt은 단백질 언어 모델과 단백질의 3D 구조 그래프 간에 반복적인 정보 교환을 가능하게 하는 혁신적인 학습 가능한 융합 토큰(fusion token)을 도입한다. 이 토큰은 두 모달리티의 학습 과정에 통합되어 정보의 원활한 전파를 가능하게 하며, 반복 학습 주기를 통해 포괄적인 표현을 형성하는 데 기여한다. 다양한 생물학적 임무에 대한 실증 평가를 통해 FusionProt이 최고 수준의 성능을 달성함을 확인하였으며, 단백질 표현 학습 분야에서 중요한 진전을 이룬 것으로 평가된다.