단백질 구조 예측의 벤치마크인 CASP를 위한 5가지 전투, 난카이 대학의 정웨이: 경쟁력과 난이도 증가, 실용적인 생물학 문제에 집중

"CASP14 이전에는 많은 연구 그룹이 DeepMind의 참여를 보고 자신들의 결과가 지난번(CASP13)의 결과와 비슷할 것이라고 생각했기 때문에 아무도 심각하게 받아들이지 않았습니다."당시 난카이 대학의 정웨이 교수는 미시간 대학의 장양 교수 연구실에서 연구하고 아이디어를 교환하고 있었습니다.그는 팀과 함께 세 번 대회에 참가했고, 첫 번째 세대 AlphaFold의 등장과 AlphaFold 2의 명성 상승을 목격했습니다.
속담에 "평신도는 흥분을 보고, 전문가는 문을 본다"고 했습니다. 언론이 AlphaFold의 승리를 홍보했을 때, CASP13에서 AlphaFold와 경쟁했던 참가자들은 실제로 외부 세계만큼 놀라거나 열광적이지 않았습니다. 정웨이는 당시 알파폴드가 아직 "거리 예측"의 틀에서 벗어나지 못했다고 회상했습니다.모두가 "노력하면 몇 달 안에 알파폴드를 능가할 수 있을지도 모른다"는 데 동의했습니다.동시에 업계가 단기간에 방법론적 혁신을 이루기 어렵다는 인식도 확산되고 있으며, 심지어 '병목 현상'에 접어들었다는 의견도 나오고 있다.
이러한 이유로 사람들은 처음에 CASP14에서 DeepMind의 성과에 큰 기대를 하지 않았습니다.
2020년 11월 마지막 날, CASP14가 결과를 발표했습니다. 정웨이와 그의 팀은 서버 그룹 경연대회에서 우승했습니다. 조직위원회는 결과를 통보하면서 또 다른 생각을 자극하는 소식을 전했습니다."한 그룹의 성과는 뛰어났고, 다른 팀과 매우 달랐으며, 다른 참가팀을 훨씬 능가했습니다."그는 곧 DeepMind가 "뭔가 큰 것을 생각해 냈을지도 모른다"는 것을 깨달았습니다.
결과는 설명이 필요 없을 정도로 AlphaFold 2는 훌륭합니다. "정말 놀랐습니다. 정말 훌륭한 성과를 냈거든요." 당시 정웨이와 다른 연구자들은 이렇게 분석했습니다. "알파폴드 2는 과거 학계 연구 그룹의 고품질 결과와 경험을 잘 통합했으며, 최적의 솔루션을 찾기 위해 모델 학습에 더 많은 노력을 기울였습니다. 알파폴드 2의 성능은 정말 놀랍습니다."
그 후의 CASP15는 "알파폴드 2 이후 시대"의 중량급 사건으로 알려져 있습니다. AI를 활용한 단백질 구조 예측이 대중화되면서 참여팀 수도 크게 늘어났고, 경쟁에 대한 관심도 더욱 커졌습니다. 기초연구부터 응용연구까지, 학계부터 산업계까지 모두가 더 많은 놀라움을 기대하고 있습니다.이번이 정웨이의 CASP 참여 네 번째입니다. 그는 구조 최적화에서 구조 예측으로의 전환을 경험했으며 풍부한 경험을 축적했습니다.더욱 치열한 경쟁 속에서 그가 개발한 DI-TASSER 알고리즘과 DMFold-Multimer 알고리즘은 다양한 대회에서 여러 차례 우승을 차지했습니다.

AlphaFold 2 예측 결과와 실험 구조(실제 구조) 비교
연도는 2024년입니다.CASP16은 예정대로 도착했고, 난카이 대학으로 돌아온 그는 팀을 이끌고 다시 참여했습니다.그가 참여한 트랙과 이벤트는 더욱 광범위해졌고, AlphaFold 3가 오픈 소스였음에도 그는 여전히 "뿌리에 충실"하기로 선택했고 여전히 여러 트랙에서 선두를 차지했습니다.
결과가 발표된 후, HyperAI는 정웨이 교수와 심층 인터뷰를 진행하는 영광을 얻었습니다. 이 국제 대회라는 선도적 행사를 통해 그는 우리에게 현재 산업 발전 추세를 분석해 주셨고, 그의 개인적인 경험을 바탕으로 과학 연구자들을 위한 AI의 성장 경로를 요약해 주셨습니다.
또한,정웨이 교수는 1월 15일 오후 7시에 강연을 할 예정이다.그들은 온라인 생방송의 형태로 생물학적 거대 분자의 3차원 구조 예측과 딥러닝을 기반으로 한 상호작용에 대한 심도 있는 성과를 우리와 공유할 것입니다. 관람을 원하시면 예약을 해주세요!
CASP 시작하기: 최적화부터 예측까지
정웨이는 난카이대학에서 학사, 석사, 박사학위를 받았습니다. 그는 처음에 수학과에서 정보과학을 공부했지만, 당시 학교에서는 이미 생물정보학 과정을 개설했고, 몇몇 교사들은 단백질 구조에 대한 연구도 진행하고 있었습니다. 그래서 그는 기초적인 수학 연구에서 응용 연구로 전환하기로 결정했을 때 이 방향을 선택했습니다. "먼저 문제를 만났고, 그 다음에 도구를 만났습니다."그는 석사학위를 공부하는 동안 단백질 구조 분야의 연구에 집중하기 시작했습니다. 당시에는 이 분야에 AI를 적용하는 것이 오늘날보다 훨씬 덜 광범위했기 때문에 그가 접하게 된 도구는 통계 도구, 전통적인 알고리즘, 머신 러닝, 딥 러닝 등 "비교적 다양"했습니다.
모든 졸업생과 마찬가지로 그도 석사 학위의 마지막이 다가오자 주저하고 고민했습니다. 취업을 준비해야 할까, 아니면 박사 과정을 계속해야 할까? "저는 일본 게이오 대학에서 교환학생으로 공부하는 동안 풍부한 학문적 분위기를 느꼈고, 과학 연구의 길을 계속 걸어가겠다는 결심이 더욱 굳어졌습니다." 지금 돌이켜보면, 일본과 미국에서의 두 번의 유학은 그에게 깊은 영향을 미쳤다.
2015년, 박사과정 마지막 2년 동안 미국 미시간대학교로 합동연수를 가 장양 교수의 연구실에서 빠르게 성장했습니다.
"구조 예측 분야를 소개해 주신 장양 교수님께 감사드립니다."앞서 언급했듯이, 정웨이는 장양 교수 연구실과 함께 CASP에 세 번 참여했습니다. 그는 "단백질 구조 예측 올림픽 경연대회"로 알려진 이 대회에서 많은 실무 경험을 쌓았습니다.
그는 미국에 도착한 지 몇 달 후 CASP12 단백질 구조 최적화(개선) 트랙 경진대회에 참가했습니다. 그는 신인이었고 그의 성적은 완벽하지 않았지만 그것은 그가 자신의 관심사를 명확히 볼 수 있게 하기에 충분했습니다.다른 사람들이 예측한 구조의 정확도를 높일 수 있다면, 단백질 구조를 직접 예측해 보는 건 어떨까요?
"이렇게 간단한 논리적 아이디어에 기초하여 저는 구조 예측을 직접 하기로 결정했습니다." 그래서 그는 CASP13에서 장양 교수의 지도를 따라 템플릿 매칭과 템플릿 검색을 시작으로 구조 예측에 집중했습니다. 이후 그는 템플릿 구조 예측을 기반으로 알고리즘 CEthreader를 구축하고, 다른 팀원들과 협업하여 알고리즘 서버 CI-TASSER를 개발하여 서버 그룹에서 1위를 차지했습니다.
업계 경쟁에서 보여준 성공은 그에게 많은 자신감을 주었습니다. "저는 구조적 예측이 나쁘지 않다고 생각하고 뭔가 해야 할 일이 있다고 생각했기 때문에 이 분야를 더 깊이 파고들기 시작했습니다."
정웨이는 구조 최적화에서 구조 예측으로의 전환을 회고하며 "어려움도 있지만 공통점도 있다"고 인정했습니다.첫 번째,두 방향의 방법론은 두 가지 체계의 집합이며, 서로에게서 배우거나 경험을 직접 전달하는 것은 불가능합니다. 그 중에서도 '최적화'는 초기 모델의 품질이 고르지 않다는 어려움에 직면하게 되며, 개선의 여지가 거의 없을 수도 있고, 심지어 오류가 발생할 수도 있습니다. "예측"은 처음부터 시작되므로, 그 어려움은 상상할 수 있습니다.둘째,둘 다 원자 수준에 고정된 공간 좌표이며 공간적 이동이나 변형이라는 측면에서 공통점이 있으므로 "상상하는 것만큼 어렵지 않습니다."
정웨이는 구조 예측 분야를 더욱 심도 있게 연구하기로 결정한 후 CASP14와 CASP15에 참여했습니다.CASP15에서 우리는 단백질 단량체와 단백질 복합체라는 두 가지 영역에 집중했고, 다른 참가팀보다 훨씬 높은 점수로 단백질 복합체 예측 부문에서 우승을 차지했습니다.

AlphaFold 2 예측 결과와 실험 구조 비교
산업 동향: 실질적인 문제 해결에 집중
2년마다 개최되는 국제 대회인 CASP는 1994년에 처음 개최되었으며, 지난 30년 동안 수많은 산업적 성과를 이루었고 생물학 분야의 발전 추세를 잘 반영하고 있습니다. CASP 5의 Zheng Wei 교수는 다음과 같이 말했습니다.CASP의 주제와 경연 형식은 조직위원회가 생각해 낸 것이 아니라, 회원들 간의 집중적인 논의를 통해 결정된 결과입니다.또한, 현재 업계에서 우려되는 문제점을 파악하고 제안을 듣기 위해 참여 팀을 소집할 것입니다.
이 높은 수준의 경쟁에 참여하는 팀은 모두 수년간 해당 분야에서 깊이 관여해 온 전문가이자 학자라는 점에는 의심의 여지가 없으며, 모두 각자의 연구 방향에 대해 독특한 통찰력을 가지고 있습니다. 정웨이가 말했듯이, "우리가 모여 토론할 때 모두가 제시하는 방향은 현재 계산구조생물학의 핫이슈일 수도 있고, 긴급히 해결해야 할 방향이며 생물학과 밀접한 관련이 있을 수도 있습니다."
다시 말해서,CASP는 업계의 주요 이슈에 대한 조언과 솔루션을 제공해 왔습니다.
얼마 전 끝난 CASP16을 돌이켜보면,그는 "전반적인 경쟁력과 난이도가 이전에 비해 높아졌다"고 믿고 있다.우선, 참여팀 수가 예년에 비해 크게 늘어났습니다. 올해는 대회 개최 이후 가장 많은 팀이 참가하는 해가 될 것으로 예상되며, 참가 팀은 주로 학계에 집중되어 있습니다. 경험이 풍부한 고령 CASP(CASP)들도 많이 참여하고 있어 전반적으로 경쟁이 매우 치열합니다. 동시에 그의 관찰에 따르면 최근 몇 년 동안 점점 더 많은 국내 팀이 CASP 대회에 참여하여 주목할 만한 성과를 거두고 있습니다. 또한 아시아 팀의 비중도 늘어나고 있다. 그 중에서도 한국의 생물정보학 분야는 여러 산업 리더들의 '공중 고용'으로 혜택을 입었고, 참여 팀의 규모도 크게 바뀌었습니다.
둘째, 이번 대회의 난이도가 높아진 것은 한편으로는 단백질 구조 예측 분야의 전반적인 기술적 발전을 상징하는 반면, 다른 한편으로는 업계의 요구가 더욱 명확해졌음을 확인시켜 주기도 합니다. 따라서 이번 대회는 "실질적인 생물학적 문제에 더 관심을 기울이고 있습니다."
정웨이 교수는 CASP의 난이도가 높아지고 문제 유형이 다양해지는 추세에 대해 크게 두 가지 이유를 분석했습니다.한편, 학계와 산업계에서 단백질 예측의 정확도는 꾸준히 향상되고 있습니다.2015년부터 2020년 사이에 단백질 단량체 구조 예측의 정확도가 급속히 향상되었고, 학계에서는 유익한 성과를 거두어 "단량체 구조 예측 문제를 한계에 매우 가깝게 끌어올렸습니다." 특히 업계의 장점을 모두 갖추고 더욱 강력한 모델 역량을 갖춘 AlphaFold 2가 출시된 이후, 정확도는 새로운 차원으로 끌어올려졌습니다.
"어떤 분야에서는 단백질 단량체의 예측 정확도를 높이기 어려워서 다들 단백질 복합체, 단백질 구조 등 다른 새로운 문제에 대한 연구에 눈을 돌리기 시작했다"고 할 수 있으며, 이러한 추세는 경쟁 문제에도 직접적으로 반영되어 있지만, 새로운 분야에 대한 예비 연구가 부족하여 모두가 문제의 난이도가 높아졌다고 느낄 수 있습니다.
반면, 지난 10여 차례의 대회에서 조직위원회가 제시한 주제에는 이미 어느 정도 생물학적 정보와 배경 지식이 포함되어 있었는데, "실제로 생물학적 문제와는 다소 동떨어져 있었습니다." 동시에, 참여 팀은 일반적으로 이러한 유형의 주제에서 매우 좋은 성과를 거두었습니다. 단백질 복합체 구조의 예측을 예로 들어 보겠습니다. 여기에는 A와 B라는 두 가지 단백질이 포함되어 있습니다. 이전 대회에서는 구조 예측의 어려움을 줄이기 위해 A와 B의 함량과 비율을 공개했습니다. 그러나 실제 응용 프로그램에서는 이 정보를 명확하게 아는 것은 당연히 불가능합니다.따라서 이 대회에서는 기존의 주제 설정을 실제 상황에 더 가깝게 바꾸었으며, 참가팀에게 전체 구조를 처음부터 예측하도록 요구합니다.
이는 실제로 정웨이를 포함한 참가자들에게 "놀라움"을 안겨주었습니다. 그는 조직위원회가 수요일에 다음 주부터 0베이스 문제가 공개될 것이라고 통보했으며, 대회를 위한 새로운 파이프라인을 준비할 시간이 5일밖에 없다고 소개했습니다. 연구팀은 작은 알고리즘을 개발하기 위해 "밤낮으로, 잠을 자지 않고" 작업했고, 생물학 문헌을 참고하여 추론과 교정을 돕기 위해 생물학자들로 구성된 친숙한 "자문팀"에 연락했습니다.
또한, CASP16은 단백질 단량체 구조 예측(REGULAR), 단백질 복합체 구조 예측(MULTIMER), 정확도 평가(EMA), 핵산 구조 예측(RNA), 리간드 복합체 구조 예측(LIGAND)의 원래 트랙에 거대 분자 다중 형태 예측(ENSEMBLES)을 추가했습니다. 이 6개 주요 트랙에는 많은 하위 프로젝트가 있으며, 트랙 간에 중복되는 부분도 있습니다.
이런 상황에도 불구하고 정웨이는 팀을 이끌며 뛰어난 성과를 거두었습니다. 그와 그의 팀은 소분자 결합을 제외한 5개 트랙에 참여했을 뿐만 아니라,동시에, 우리는 이러한 과제에 대처하기 위해 다양한 트랙에 대해 별도의 알고리즘을 구축했습니다.단백질 단량체 단일 도메인 그룹에서 2위, 핵산 중합체 서버 그룹(z-점수>-2.0)에서 1위, 복합체의 전체 폴딩 정확도 추정에서 1위, 단백질-핵산 복합체 예측에서 1위, 다중 구조 예측을 위한 TM-점수에서 1위를 차지했습니다.
CASP16이 시작된 지 일주일 후인 5월 8일에 AlphaFold 3 서버가 출시되었고, 일부 참여 팀은 이를 사용하여 자체 알고리즘을 대체하려고 시도했습니다. 그는 팀과 논의한 후 "그때는 자신감이 더 많았기 때문에 AlphaFold 3를 많이 사용하지 않았습니다."라고 말했습니다.그들은 "근본에 집중"하기로 결정했고, AlphaFold 3를 사용하지 않은 유일한 단백질 복합체 구조 예측 상위권 팀이 되었습니다.

CASP 조직위원회 위원장인 John Moult와 함께 찍은 사진
지금 이 이야기를 하니 정웨이 교수는 웃으며 "지금은 좀 과신한 것 같다"고 했지만, 제 생각에는 당시 경쟁 환경이 워낙 압박적이었고, 경쟁자들이 모두 '버프를 겹겹이 쌓은' 상황에서 이런 결정을 내리고 이런 성과를 내기까지는 용기와 힘이 필요했을 것 같습니다.
AI4S 소개 및 축적
실제로, CASP16에서 생물학자로부터 기술 지원을 받으려는 정웨이 팀의 노력은 과학을 위한 AI 분야에서 흔히 볼 수 있는 협업 모델이기도 합니다.
과학을 위한 AI라고 불리는 이 프로젝트는 AI의 장점을 활용하여 전통적인 과학 연구 분야의 어려운 문제를 해결하거나 효율성과 정확성을 개선하는 것을 목표로 합니다. 이를 위해서는 연구 분야의 요구 사항과 어려움을 이해하는 것뿐만 아니라 AI 기술을 완벽하게 숙지해야 합니다. 물론, 위에서 언급한 학제간적 배경을 가진 인재는 드물고, 이러한 일반적인 추세에 따라 많은 과학 연구자들도 스스로 AI를 배우기 시작했습니다. 마찬가지로 AI나 컴퓨팅에 주력하는 연구자들도 생물의학, 재료화학, 지리정보과학과 같은 분야에 관심을 기울이는 경우가 점점 늘어나고 있습니다.
정보 분야부터 시작한 정웨이 교수는 다음과 같이 말했다.생물정보학의 특징은 "시작은 쉽지만, 중간 단계의 축적 과정은 실제로 상당히 길다"는 것입니다. 축적 후 폭발적인 성장 또한 비교적 빠르지만, 곧 병목 현상에 빠지게 되고, 추가적인 개선을 위해서는 장기간의 축적이 필요할 수 있습니다.

구체적으로, 단백질 관련 연구는 실제로 생물학적 배경에 대한 요구 사항이 비교적 느슨합니다. "아미노산 20가지를 이해한다면 시작하는 데 한 달 정도 걸릴 수 있습니다." 이제 실제 문제에 대한 알고리즘을 개발하고 적용할 차례입니다. 이 과정이 축적되려면 어느 정도 시간이 필요합니다.그는 이렇게 회상했습니다. "석사 과정을 밟는 동안 저는 알고리즘에 대한 기본 연구를 쌓았습니다."
단백질 구조 예측은 병목 현상을 극복하는 데 있어 그의 획기적인 발견이 되었습니다. 그는 미시간 대학의 장양 교수 연구실에서 교환학생으로 공부하는 동안 AI를 이용한 단백질 구조 예측과 같은 관련 연구에 더욱 깊이 파고들기 시작했습니다."저는 박사후 연구 기간 동안 이 분야에서 경험을 쌓았고 점차 성과를 냈습니다."
연구가 심화되고 다루는 범위가 확대됨에 따라, 단방향의 "계산" 관점에서 문제의 모든 측면을 다루는 것은 어렵고, 때로는 어려운 상황에 직면하기도 합니다. 동시에, AI 알고리즘이나 모델도 더 나은 반복과 업그레이드를 위해 실제 생물학적 문제에 의해 완화되어야 합니다. 고립되어 일하지 마세요. 이 점에 있어서 정화는 생물학자 및 관련 팀과 기관과 지속적으로 협력하고 소통하고 있습니다.
흥미롭게도 그는 생물학 팀에 다음과 같은 내용을 주입해 왔습니다.AI에 너무 많은 것을 기대하지 마세요. 오류율이 꽤 높을 수 있거든요.그는 과학 연구에 대한 경외심을 가지고, 실제 구현이 가능한 문제에 직면했을 때 "건조한 측면과 습한 측면을 결합하고, 양측이 서로 정보를 제공하고 보완함으로써 구현이 더욱 견고해질 수 있도록 하는 것"에 큰 주의를 기울였습니다.
팀워크와 다분야 개발
이 인터뷰에서 정웨이 교수는 CASP 분야에서의 자신의 경험과 업계 관찰 결과를 우리와 공유했습니다. 저자는 CASP12에서 CASP16으로의 여정을 따라가면서 수년에 걸쳐 구조 최적화라는 무지한 선택에서 벗어나, 단호하게 구조 예측으로 전향하고, 그 과정에서 재미를 발견하고, 하나하나의 축적과 혁신을 완성해 나가는 모습을 보았습니다.
오늘날, 난카이 대학 출신의 교사들이 CASP 팀에 합류했습니다. 정웨이 교수는 "팀의 이익에 따라 모든 사람이 함께 일하고 협력할 수 있도록 더 많은 트랙이나 방향이 필요합니다."라고 말했습니다. 이러한 이유로 CASP16에서 팀은 전통적인 유리한 트랙에 초점을 맞추지 않고 분산형 개발의 전체 분야에 집중했습니다. "득실은 있습니다. 전반적으로 저희의 결과는 CASP15만큼 좋지 않을 수 있지만, 저희 팀은 경험을 통해 교훈을 얻었습니다." 이는 또한 "축적 곡선"의 유일한 방식입니다. 난카이대학 팀의 CASP와 생물정보학 분야 전체에서의 더욱 큰 폭발을 기대해 주시기 바랍니다!
신규 회원 모집
정웨이 교수님이 계신 난카이대학교 통계 및 데이터 과학부의 생물정보학 팀에서 새로운 멤버를 모집합니다!
석사, 박사, 박사후 연구원 등 계산 구조 생물학, 생물정보학 또는 데이터 과학에 관심이 있으시다면 Zheng Wei 교수님의 팀에 합류하시기를 환영합니다.
관심 있는 학생은 다음 방법을 통해 Zheng Wei 교수에게 연락할 수 있습니다.
* 이메일: jlspzw@nankai.edu.cn
* 위챗: 18622152765
여러분과 함께 과학의 신비를 탐구해 볼 수 있기를 기대합니다!