단백질 구조 예측/기능 주석/상호작용 인식/주문형 설계, 중국 해양 대학 장수강 팀은 단백질 지능 컴퓨팅의 핵심 과제를 직접 해결합니다.

단백질은 생명 활동의 주요 매개체로서 인간의 생리 기능에 핵심적인 역할을 합니다. 그러나 기존 연구는 구조 분석의 높은 비용, 기능 주석(annotation)의 심각한 지연, 그리고 신규 단백질 설계의 낮은 효율성과 같은 어려움에 직면해 있습니다. 최근 생명 과학 분야에서 단백질의 복잡한 특성 분석에 대한 요구가 점점 더 시급해지고 있습니다. 빅데이터, 딥러닝, 멀티모달 컴퓨팅과 같은 기술의 획기적인 발전은 단백질 지능형 컴퓨팅 시스템 구축에 새로운 발전 기회를 제공했습니다. 단백질 지능형 컴퓨팅 시스템 구축을 통해 단백질은 대규모 기능 주석, 상호작용 예측, 3차원 구조 모델링 분야에서 놀라운 성과를 달성할 수 있었으며, 이는 신약 개발 및 생명 시스템 시뮬레이션에 새로운 기술적 길을 제시했습니다.
2025년 베이징 지위안 학술대회에서 중국해양대학교 컴퓨터과학부의 장수강 부교수가 "AI+과학·공학·의학" 포럼에서 "단백질 지능형 컴퓨팅 시스템의 구축 및 응용"이라는 주제로 발표를 진행했습니다.이 논문은 단백질 지능형 컴퓨팅 시스템의 핵심 가치에서 출발하여 단백질 구조 예측, 기능 주석, 상호작용 인식 및 새로운 설계라는 4가지 핵심 과제의 기술적 혁신을 체계적으로 설명합니다.해당 팀의 관련 연구 결과가 강조되었습니다.

HyperAI는 장수강 부교수의 심도 있는 발표 내용을 원래 의도를 훼손하지 않고 편집하고 요약했습니다. 다음은 발표 내용 전문입니다.
단백질 지능 컴퓨팅 시스템 개요: 생명 과학 분야의 AI 기반 혁명
생명과학 연구에서 단백질의 중요성은 자명합니다. 단백질은 생화학 반응을 촉매하는 효소일 뿐만 아니라, 신호를 전달하는 메신저 역할을 하며, 신체의 구조적 기반을 구성하고, 외부의 적에 저항하는 면역 체계의 "무기"이기도 합니다. 그러나 전통적인 연구 방법은 단백질의 복잡한 특성 앞에서는 무력해 보입니다. 높은 구조 분석 비용, 기능 주석의 심각한 지연, 낮은 단백질 설계 성공률과 같은 문제들이 중요한 과제로 떠올랐습니다.
AI 기술의 도입은 이러한 상황을 완전히 뒤집었습니다. 2024년 노벨 화학상은 AI를 이용한 단백질 구조 예측 및 설계 분야의 획기적인 발전에 수여되었는데, 이는 단백질 연구에서 AI가 차지하는 중요성을 다시 한번 여실히 보여주었습니다.단백질 지능형 컴퓨팅은 데이터 기반 알고리즘 모델을 구축하여 복잡한 단백질 특성에 대한 효율적인 시뮬레이션과 예측을 달성합니다.또한, 이 연구는 위에서 언급한 과제를 해결하기 위한 새로운 아이디어와 연구 패러다임을 제공하고 생명과학 연구의 새로운 시대를 열어줍니다.
단백질 지능 컴퓨팅의 핵심 과제에서 획기적인 진전
단백질 지능 컴퓨팅의 핵심 문제는 다음 네 가지 범주로 구성됩니다.
단백질 구조를 처음부터 예측할 수 있을까?
레빈탈 역설에서 알파폴드의 전복까지
단백질 접힘을 예로 들면, 100개의 잔기를 가진 단백질은 최대 10개의 가능한 구조를 가질 수 있습니다.200 무작위 탐색을 한다면, 필요한 시간은 우주의 나이(138억 년)보다 훨씬 더 길어지는데, 이것이 바로 유명한 레빈탈 역설입니다. 그러나 실제 단백질 접힘은 밀리초에서 몇 분 안에 완료될 수 있으며, 이는 특정 접힘 경로가 존재함을 시사합니다.
2018년에 첫 번째 세대의 AlphaFold 모델은 잔차 합성곱 모듈을 사용하여 아미노산 쌍의 거리와 비틀림 각도를 예측하는 딥 러닝 방법을 사용하여 문제를 해결하려고 시도했습니다.CASP13에서는 다른 경쟁자들을 상당한 차이로 앞지르며 25개의 단백질 구조를 정확하게 예측했습니다.2위는 3개만 정확하게 예측했습니다.
2021년, 2세대 모델은 질적인 도약을 이루었습니다. AlphaFold2는 HMMER와 HH-suite를 사용하여 다중 시퀀스 정렬 및 템플릿 검색을 수행했습니다.48개의 Evoformer 모듈과 8개의 구조 모듈을 통해 원자 수준의 단백질 구조 예측이 달성됩니다.약 2억 1,400만 개의 단백질 단량체 예측을 담은 데이터베이스가 공개되었습니다. 예측된 구조와 전자현미경 분석 결과 사이의 평균 오차는 원자 한 개 너비를 넘지 않아 "매우 정확함" 기준에 도달했습니다.
2024년에는 3세대 모델이 생체 내 단백질 상호작용 구조의 완전한 예측을 더욱 달성할 것입니다. AlphaFold3는 질적인 도약을 달성했습니다. 단백질 구조뿐만 아니라또한 단백질, 핵산, 소분자, 이온 및 기타 모든 생명 분자로 구성된 복합체의 구조를 예측할 수도 있습니다.이 데이터베이스는 PDB 데이터베이스에 있는 거의 모든 분자 유형을 포괄하여 세포 기능과 질병 치료를 이해하는 데 강력한 도구를 제공합니다.
단백질 기능에 자동으로 주석을 달 수 있을까: 다중 소스 데이터 융합의 획기적인 발전
단백질 예측 분야에서 AlphaFold3의 미래지향적인 발전에 힘입어, 저희 팀은 연구의 초점을 단백질 기능 주석 및 상호작용 분석 분야로 전환하기로 결정했습니다. 현재 전 세계 2억 5천만 개의 단백질 서열 중 단 0.5%만이 정확한 기능 주석을 완료했습니다. 생물학 전문가의 수작업 분석에 의존하는 기존 모델은 방대한 데이터 처리에 어려움을 겪었습니다. 따라서 딥러닝을 활용하여 대규모 배치 주석을 구현하는 것이 핵심적인 돌파구가 되었습니다.
이 분야에 대한 우리의 탐색은 2022년에 시작되었습니다. 딥 러닝이 의존하는 전자 현미경 구조 데이터가 부족하고 비용이 많이 든다는 산업의 문제점을 목표로 합니다.우리는 AlphaFold2가 예측한 가상 구조 데이터를 모델 학습에 활용하는 것을 혁신적으로 제안합니다."데이터 강화"와 유사한 이 전략은 훈련 데이터의 규모를 크게 확장했습니다. 기존 전자 현미경이 제공할 수 있는 500만 개의 샘플에서 이론적으로 수억 개의 예측 데이터 풀로 확장되었습니다. 실험 검증 결과, 예측 데이터 기반으로 훈련된 모델은 기존 모델보다 성능이 뛰어날 뿐만 아니라 기존 방식으로는 발견되지 않았던 새로운 단백질 기능도 발견할 수 있는 것으로 나타났습니다.
논문 제목:AlphaFold 예측 단백질 구조를 활용하여 단백질 기능 예측 성능 향상
서류 주소:
https://pubs.acs.org/doi/10.1021/acs.jcim.2c00885
기술 혁신 측면에서,단백질 구조 정보 마이닝이 부족하다는 문제를 해결하기 위해, 본 연구팀은 자기 감독 그래프 어텐션을 기반으로 한 단백질 기능 예측 방법을 제안했습니다.단백질 분자 내 잔류물의 상관관계 정보를 인코딩하고, 잔류물 간의 거리 정보를 보조 작업으로 최대한 활용함으로써 단백질 기능 예측 성능을 개선할 수 있습니다.
논문 제목:SuperEdgeGO: 향상된 단백질 기능 예측을 위한 에지 지도 그래프 표현 학습(출간 예정)

융합하기 어렵고 공간적으로 일관성이 없는 이질적인 단백질 특성의 문제를 해결하기 위해 단백질 이중 관점 구성 전략과 특성 정렬 방법이 제안되었습니다.6가지 교차 스케일 모드(서열, 3차원 구조, 기능 영역 및 기타 차원 포함)를 갖는 생물학적 단백질의 복잡한 특성을 기반으로,팀은 또한 다중 모드 융합 전략을 제안했습니다.——컴퓨팅 분야에 대조 학습과 멀티뷰 분석 방법을 통합하여 계층적 특징 융합 모델을 구축합니다. 이 솔루션을 7개 데이터 세트에 대해 20개의 기존 기준 기법과 비교 분석한 결과, 모두 SOTA 결과를 달성하여 모달리티 직접 접합으로 인한 성능 저하라는 기술적 문제를 성공적으로 해결했습니다.
논문 제목:다양한 생물학적 방식을 융합하여 단백질 기능에 주석 달기
서류 주소:https://www.nature.com/articles/s42003-024-07411-y



또한, 기능 예측의 해석 가능성에 대한 연구에서,또한 이 모델은 수천 개의 GoTerms 주석에서 10개 이상의 단백질 기능을 정확하게 식별하는 뛰어난 능력을 보여주었습니다.또한, 연구팀은 문헌 연구를 통해 모델이 오류를 예측했지만 높은 신뢰도를 보인 사례가 일부 연구에서 실제로 기록되었음을 확인했습니다. 이는 데이터 세트 버전의 지연으로 인해 이러한 사례가 잘못 판단되었을 가능성을 시사합니다. 이 발견은 AI 모델이 새로운 단백질 기능을 탐색하는 데 있어 잠재력을 발휘함을 보여줍니다.
단백질 상호작용을 정확하게 파악할 수 있을까요? 자체 개발 모델을 통해 효율적인 예측이 가능합니다.
약물 개발 분야에서 단백질을 인간 표적에 정확하게 결합하는 것은 약물 효능의 핵심이며, AI 기술은 이 과정에서 중요한 가치를 보여주었습니다. AlphaFold3는 단백질 구조 예측 분야에서 우수한 성능을 보였지만, 실제 적용에는 분명한 한계가 있습니다. 무료 버전은 하루 20회만 접근 가능하고, 약 15~20종의 분자를 포괄하며, 상업적 사용권 신청이 매우 까다롭기 때문입니다. 이러한 이유로 연구팀은 자체 모델을 개발하게 되었습니다.
이 문제를 바탕으로 팀은 다음과 같은 작업에 집중했습니다.
첫째, 우리는 기존 단백질 상호작용 예측 방법에서 나타나는 낮은 상승적 상호작용 문제를 목표로 삼았습니다.단백질 표현의 협력적 일관성을 강화하기 위해 인코더에 트윈 학습 모델을 도입하고, 단백질 상호작용 협력 메커니즘과 작업 협력 메커니즘을 갖춘 협력 학습 프레임워크를 제안한다.연구팀은 상호 작용적인 주의와 멀티태스크 학습 방법을 사용하여 단백질-핵산, 단백질-단백질, 단백질-소분자에 대한 상호 작용적인 예측을 달성했습니다.
또한 이 팀은 NLP 분야에 Transformer와 그래프 신경망을 통합하고 Convformer, Graphormer와 같은 모듈을 개발하여 원격 상호작용 모델링을 구현했습니다.교차 주의 메커니즘은 다중 모드 정보의 융합을 강화하는 데 사용됩니다. 이 모델은 실제 상황에서 강력한 일반화 능력을 보여줍니다. 췌장암 신호 전달 경로 예측을 예로 들면, 정확도는 95%를 초과하며, 상호작용 예측 오류는 9쌍에 불과합니다.
논문 제목:SSPPI: 서열 및 구조 관점에서 본 교차 모달리티 강화 단백질-단백질 상호작용 예측(출간 예정)

검은색 선: 정확한 예측, 빨간색 선: 잘못된 예측
최근 연구에서는 네트워크 수준에서 단백질의 교차 스케일 차원 축소 외에도 단백질 특징 마이닝에도 주력하고 있습니다. 기존 그래프 모델은 3차원 구조 정보를 2차원으로 축소할 때 정보 손실을 초래한다는 점을 고려하여, 최신 기하학적 딥러닝을 도입했습니다.하이브리드 메시지 전달 전략에 기반한 기하학적 딥러닝 방법을 제안하고, 완전한 3차원 정보 통합 패러다임을 구축합니다.이 패러다임은 공간적 위치 모델링에서 3차원 정보를 버리는 것의 비합리성을 해결하고 단백질 3차원 모델링 분야에서 새로운 연구 아이디어를 제공하는 것을 목표로 합니다.
논문 제목:하이브리드 메시지 전달 전략을 사용한 단백질-리간드 친화도 예측을 위한 기하학적 딥 러닝(출간 예정)

또한,또한 우리는 ACSS2 단백질에 대한 실제 테스트를 수행하여 수만 개의 화합물 중에서 몇몇 후보 화합물을 선별했습니다.모델 예측 결과에 따르면 선별된 화합물의 친화력이 nM 수준에 도달할 수 있어 약물로서의 잠재력이 우수함을 보여줍니다. 저희 연구팀은 청도대학 의과대학 팀과 협력하여 검증을 진행했으며, 도킹 결과는 최근 진행된 습식 실험에서도 예비적으로 확인되었습니다.

새로운 단백질을 수요에 따라 설계할 수 있습니까? 역문제에서 혁신적인 응용 프로그램까지
단백질 설계는 단백질 연구의 궁극적인 목표 중 하나이며, 백신 개발, 암 치료, 생체재료 개발에 매우 중요합니다. 그러나 단백질 접힘의 역문제로서, 단백질 서열 설계는 탐색 공간 폭발 및 전통적인 역장 시뮬레이션 오류와 같은 어려움에 직면합니다.
지능적 단백질 설계 및 최적화라는 핵심 문제에 직면하여, 작년 노벨상 수상자인 베이커 팀의 최신 연구를 예로 들어보겠습니다. 뱀독에는 특정 해독제가 없습니다. 컴퓨터를 기반으로 새로운 유형의 단백질을 설계하는 것이 가능할까요? 이 문제를 바탕으로 베이커 팀은 기존의 ProteinMPNN과 RFDiffusion을 결합하여 새로운 단백질을 설계했습니다. 또한, 그의 팀은 뱀독 독소에 대한 특이적 결합 단백질 설계를 수행하여 치명적인 뱀독 독소를 중화하는 새로운 솔루션을 제공했습니다. 관련 논문은 2025년 초 네이처(Nature)의 주요 학술지에 게재되었습니다. 이러한 연구 결과는 단백질 설계 분야에서 AI의 엄청난 잠재력을 보여주며, "새로운 단백질 설계"라는 "창조자"와 같은 목표를 향해 나아가는 데 큰 발걸음을 내디뎠습니다.
복잡한 생명 시스템의 크로스 스케일 컴퓨팅: 나노 스케일에서 거시 스케일까지의 전체 체인 시뮬레이션
생명 시스템은 복잡한 다중 스케일 시스템입니다. 나노 수준의 유전자부터 거시적인 세포 수준까지 각 스케일은 서로 상호작용하고 영향을 미칩니다. 영국 맨체스터 대학교의 장 헝구이 교수 연구팀을 방문하는 동안 디지털 심장 관련 연구를 수행했습니다. 중국으로 돌아온 후에는 디지털 세포에 대한 연구를 더욱 심화했습니다. 디지털 심장과 같은 "수치 구동" 패러다임과는 달리,연구팀은 "데이터 기반" 구축 방식을 기반으로 미시적 생명 활동에 대한 다중 스케일 모델링 방법을 제안하고 "표현-상태-스케일"의 3차원 미시적 컴퓨팅 방법 시스템을 구축했습니다.여기에는 36개의 연구 주제가 포함되며, 현재 약 1/3의 방법에 관해 논문이나 특허가 축적되어 있습니다.
또한, 웨이지창 교수의 지도 하에,우리는 4가지 규모의 미시적 생명 체계를 새롭게 정의했습니다.나노 수준의 유전자, '미시적' 단백질 수준, '중시적' 신호 경로 수준, '거시적' 세포 수준을 포함하여 전체 사슬 생명 시스템 시뮬레이션을 실현하여 원자에서 심장까지 본격적인 결합을 달성하고자 합니다.

장수강 부교수 소개
장수강은 중국해양대학 컴퓨터과학원 부교수이자 석사과정 지도교수이며, 중국해양과학기술연합(CCF) 선임 위원, 중국해양과학기술연합 생물정보학 위원회 통신 위원, 중국항공우주산업협회 스마트 헬스케어 위원회 위원, 산둥생물정보학회 이사, 중국국가자연과학기금위원회 이사, 중앙대학 기초과학연구사업 경비 항목 이사 등을 맡고 있습니다. 그는 2020년 산둥성 박사후연구원 혁신인재 지원 프로그램에 선정되었습니다.
그의 주요 연구 분야는 초고정밀 디지털 심장 구축, 단백질 기능 예측 및 설계 등을 포함한 계산 생물학 및 생물정보학입니다. 최근 몇 년 동안 그는 IEEE JBHI, JCIM, npj Systems Biology and Applications와 같은 국제 권위 저널과 컨퍼런스에 30편 이상의 논문을 발표했으며, Google Scholar에서 1,600건 이상 인용되었습니다.