HyperAI초신경

AI 실무자들은 어떻게 과학을 수행하는가? 청화대학교 AIR 주하오: 텍스트 생성부터 단백질 설계까지 국경 간 탐구

特色图像

최근 베이징지위안회의 'AI for Science' 포럼에서청화대학교 지능산업연구소의 저우하오 연구원은 "과학적 발견을 위한 생성적 인공지능"이라는 주제로 연설했습니다.HyperAI는 주하오 교수의 심도 있는 공유 내용을 원래 의도를 훼손하지 않고 정리하고 요약했습니다.

주하오 교수의 연설

텍스트 생성부터 분자 설계까지 국경을 넘나드는 탐구

이 연설에서 저우 하오 교수는 주로 복잡한 기호를 위한 생성적 인공지능, 마이크로 샘플 생성에 직면한 과제, 현재의 특정 연구 내용이라는 세 가지 측면에 대해 자세히 설명했습니다.

주하오 교수는 관련 연구 방향을 소개하면서 지난 10년 동안 텍스트 생성, 기계 번역을 포함한 자연어 처리에 전념해 왔다고 말했습니다. 지난 2년 동안,연구의 초점은 점차 콘텐츠 제작에서 분자 생성과 단백질 설계로 옮겨갔습니다.그의 견해에 따르면, 과거의 텍스트 처리 작업은 어휘가 26개의 문자로 구성된 복잡한 언어 기호 체계로 간주되었다면, 현재의 작업은 이 26개의 문자를 주기율표, 아미노산, 염기 등 더 광범위한 분야로 확장하는 것과 같습니다. 그의 연구팀은 이러한 기술에 대한 풍부한 경험을 축적했습니다.

콘텐츠 제작에 집중하는 AI부터 과학적 발견에 전념하는 AI까지,둘 사이의 연관성은 무엇인가? 실제로 인공지능은 노이즈로부터 완전한 이미지를 생성할 수 있으며, 많은 북미 연구팀은 이미 비슷한 방법을 사용하여 단백질을 설계했습니다. 단백질의 아미노산을 공간에 무작위로 배열한 다음, 0에서 2,000단계까지 일련의 생성 설계를 거치면 상당히 합리적으로 보이는 아미노산 서열을 설계하는 것이 가능합니다.

이 연구에 관련된 단백질의 길이에는 아직 어느 정도 한계가 있지만, 최근 연구 결과는 이러한 한계를 크게 확장했으며 동시에 이 기술의 엄청난 잠재력을 시사하고 있습니다. 이는 저우하오 교수가 이 분야를 선택한 중요한 이유가 될 수 있습니다.

AI 실무자들이 과학 연구를 수행할 때 직면하는 다양한 과제

그 후, 저우하오 교수는 컴퓨터 과학이나 AI 분야 실무자의 관점에서 과학 분야에서 인공지능(AI for Science)이 직면한 세 가지 주요 과제를 모든 사람과 공유했습니다.

첫째, 분자 데이터의 특이성입니다.일반적으로 텍스트와 기호는 이산적인 것으로 처리되고, 이미지는 0과 1 사이의 연속적인 신호이지만, 분자 데이터는 이산적인 요소와 연속적인 요소를 모두 포함합니다.

예를 들어, 컴퓨터에 분자를 저장할 때 연구자들은 일반적으로 이를 원자 좌표와 원자 유형으로 표현하는데, 원자 좌표는 연속적이고 원자 유형은 불연속적이어서 처리하기 어려운 다중 모드 데이터를 형성합니다. 또한 분자는 회전과 이동에 대한 불변성과 같은 기하학적 제약을 갖는데, 이는 텍스트나 이미지 처리에서는 일반적이지 않습니다.

둘째, 텍스트와 이미지 모델은 단백질 분야에서 완전히 재사용될 수 없습니다.분자 데이터는 다중 모드일 뿐만 아니라 노이즈에 매우 민감합니다. 예를 들어, 개 사진에 노이즈가 추가되어도 사람들은 여전히 그것이 개 사진이라는 것을 알아볼 수 있습니다. 하지만 분자 데이터에 아주 작은 양의 노이즈라도 추가되면 분자의 정체성을 인식하는 것이 불가능해질 수 있으며, 결과적으로 많은 양의 정보가 손실될 수 있습니다. 따라서 기존의 처리 방법은 이 새로운 데이터 유형에 완전히 적용할 수 없습니다.

셋째, 분자 데이터의 순서가 누락되었습니다.텍스트는 왼쪽에서 오른쪽으로의 의존성이 거의 없으므로 GPT를 통해 왼쪽에서 오른쪽으로 새로운 텍스트를 생성할 수 있습니다. 그러나 단백질은 매우 강한 양방향 의존성을 가지고 있으며, 앞에서 뒤로, 왼쪽에서 오른쪽으로의 순서를 결정하는 것은 어렵습니다. 텍스트나 이미지 모델을 직접 사용하여 분자 구조를 생성하는 것은 매우 어려울 것입니다.

위의 과제를 해결하기 위해,저우하오 교수의 팀은 자료 구조, 생성 알고리즘, 기반 구축에 대한 심층 연구를 수행했습니다.

데이터 구조에서 시작하여 내재적 데이터 특성화 공간을 찾습니다.

분자의 3D 구조 표현을 재구성하기 위해 이면각 자유도만 유지합니다.

"분자나 타겟 데이터 구조의 고유공간을 결정하는 방법은 컴퓨터 과학자들이 풀어야 할 문제입니다."주하오 교수는 분자의 3차원 구조 표현이 매우 중요하며, 구조가 곧 기능이라고 할 수 있다고 말했습니다. 과거 연구자들은 주로 원자의 좌표와 종류를 기록하여 분자 모델을 구축하여 필요한 정보를 얻었습니다. 그러나 분자의 구조는 크고 중복된 정보를 많이 담고 있습니다. 컴퓨터 과학의 관점에서 볼 때, 과거에 이루어진 방식으로 모델링한다면, 이는 분자의 고유 공간에서의 관찰이 아닙니다.

실제로 분자의 결합 길이, 결합 각도, 이면각을 분석해 보면, 분자 결합 길이와 결합 각도는 피크가 적고 자유도가 제한적인 반면, 이면각은 자유도가 더 높은 것을 알 수 있습니다. 그래서 저우하오 교수 연구팀은 새로운 방법을 고안해냈습니다.즉, 이면각 자유도는 유지하면서 다른 중복 자유도는 제거됩니다.

구체적으로, 이 연구는 3차원 구조를 2차원 표현으로 변환하고, 분자 단편화 처리를 통해 각 분자 내의 자유도를 최소화하고 단편 간의 자유도를 최대화할 수 있습니다. 동적 프로그래밍 기술을 사용하면 최소-최대 문제를 쉽게 풀 수 있으며, 이후 알고리즘을 사용하여 모든 분자를 대상 데이터 구조로 잘라낼 수 있습니다.

논문 제목:정규화된 분자 형태장

논문 링크:https://neurips.cc/virtual/2022/poster/53277

"이 새로운 데이터 구조를 사용하면 향후 분자 생성이 필요할 경우, 관련 연구를 통해 매우 적은 데이터로도 분자 공간을 구축할 수 있습니다. 이 아이디어는 매우 중요합니다!"

실제 공간에서 스펙트럼 공간까지 단백질 기하학 및 화학 정보를 효율적으로 포착

저우하오 교수의 팀은 분자 연구 외에도 단백질 구조와 기능 연구에도 관심을 가지고 있습니다.

단백질을 연구할 때 연구자들은 일반적으로 기하학적 정보와 화학적 정보의 두 가지 차원에서 단백질을 관찰합니다. 단백질의 모양과 표면 화학 정보가 기능에 매우 중요하다는 것은 잘 알려진 사실이며, 이 두 가지가 서로 보완될 때에만 최적의 성능을 발휘할 수 있습니다.

단백질의 화학적, 기하학적 정보를 효율적으로 표현하기 위해서는저우하오 교수의 팀은 단백질을 실제 공간에서 스펙트럼 공간으로 변환한 다음 고유 함수를 사용하여 단백질을 표현했습니다. 예를 들어, 10개의 고유 함수를 사용하여 단백질의 저주파 정보를 포착하고, 이를 통해 단백질의 전반적인 윤곽을 파악합니다. 또한, 고유함수가 많을수록 더 많은 고주파 정보를 포착할 수 있으며, 1,000개의 고유함수를 사용하면 거의 모든 단백질 정보를 포착할 수 있습니다.

논문 제목:리만 다양체에서의 조화 분자 표현 학습

논문 링크:https://iclr.cc/virtual/2023/poster/10900

"이 접근법의 장점은 단백질의 기하학적 정보뿐만 아니라 화학적 정보도 복제할 수 있다는 것입니다."각 고유 함수는 새로운 공간으로 간주될 수 있으며, 단백질 표면의 화학 정보는 이 고유 공간에 매핑될 수 있습니다. 기하학적 정보와 화학 정보는 모두 같은 공간에 표현될 수 있으며, 복잡한 실공간 문제는 간단한 스펙트럼 공간 문제로 변환됩니다.

생성 알고리즘을 기반으로 한 앱타머 생성 모델 설계

가장 밀집되고 고유한 분자 및 단백질 공간이 발견되었지만, 이러한 공간을 성공적으로 식별한 후에는 다음과 같은 의문이 생깁니다.생성적 인공지능을 활용해 효과적으로 표적 분자를 얻는 방법.


논문 제목:MARS: 다목적 약물 발굴을 위한 마르코프 분자 샘플링

논문 링크:https://iclr.cc/virtual/2021/poster/3352

가장 적합한 분자 생성 모델을 찾기 위해서는저우하오 교수의 팀은 비지도 다목적 분자 최적화 샘플링을 사용하여 2D 분자 설계를 수행하는 MARS라는 모델을 개발했습니다. 분자 설계 과정은 여러 가지 설계 목표를 충족해야 하는데, 이는 복잡한 고차원 공간에서의 샘플링 문제입니다. 마르코프 체인 몬테카를로(MCMC) 프레임워크는 분자를 편집하는 데 사용되며, 신중한 평형 조건이 충족되면 모든 표적 분자를 생성할 수 있습니다.

논문 제목:하이브리드 확률 전송을 통한 등가 흐름 매칭
논문 링크:https://neurips.cc/virtual/2023/poster/70795

동시에, 주하오 교수 팀에서 제안한 EquiFM은 현재 분자 데이터의 기하학적 귀납적 편향을 탐구하는 데 가장 적합한 생성 모델입니다. 다양한 분자 생성 벤치마크에서 좋은 성능을 달성했으며, 평균 샘플링 속도가 4.75배 증가했습니다.


논문 제목:베이지안 흐름 네트워크를 통한 3D 분자의 통합 생성 모델링
논문 링크:https://iclr.cc/virtual/2024/oral/19764

또한, GeoBFN 분자 생성 모델의 핵심은 데이터 공간의 모든 분자 데이터를 가우시안 평균-분산 공간으로 변환하여 적법성이 높고 실제 분포에 가까운 분자를 생성하는 것입니다. 저우하오 교수는 이렇게 말했습니다."이것은 현재 분자에 가장 적합한 심층 생성 모델이며 개발 잠재력이 매우 큽니다."

논문 제목:MolCRAFT: 연속 매개변수 공간에서의 구조 기반 약물 설계
논문 링크:https://icml.cc/virtual/2024/poster/34336

이러한 연구 외에도, 주하오 교수 연구팀은 GeoBFN을 구조 기반 약물 설계에 적용할 가능성을 탐구하는 논문을 국제 기계 학습 컨퍼런스(ICML)에 발표했습니다. 결과는 이 모델을 사용하여 생성된 분자가 매우 안정적인 형태와 좋은 활성을 가지고 있음을 보여주었습니다.

기초 구축부터 시작하여 방대한 데이터 지식이 풍부한 사전 훈련 기반을 구축합니다.

마지막으로, 주하오 교수는 기지 구축부터 시작해 방대한 데이터 지식이 풍부한 사전 훈련 기지를 구축하는 방법을 모든 사람과 공유했습니다.

기존 연구에서는 소분자 생성에 대한 실험 데이터가 매우 부족하며, 컴퓨터 과학적 방법을 사용하여 이 문제를 해결하려는 것은 중요한 아이디어입니다.

논문 제목:스케치 및 생성을 통한 제로샷 3D 약물 설계
논문 링크:https://neurips.cc/virtual/2022/poster/54457

이와 관련하여 저우하오 교수 연구팀은 새로운 아이디어를 제안했습니다.즉, 표적에서 분자로 분자가 단일 단계로 생성되는 것이 표적에서 모양으로, 그리고 모양에서 분자로 이어지는 과정으로 분해됩니다.실제로 타겟에서 분자로 직접 전달되는 데이터의 양은 적지만, 형상에서 분자로 전달되는 데이터의 양은 매우 많습니다. 이러한 데이터는 타겟으로부터 다양한 모양을 수집하고, 이후 모양에서 분자까지 초대형 사전 학습 모델을 만드는 데 충분합니다. 마지막으로, 우리는 표적에서 분자로의 전환을 빠르게 실현할 수 있으며, 심지어 무감독 또는 최소 감독 약물 분자 설계도 달성할 수 있습니다.

논문 제목:모달리티 블렌딩을 통한 다중 모달 분자 사전 훈련
논문 링크:https://iclr.cc/virtual/2024/poster/17824

또한, 이들이 제안한 MolBlend 모델은 2차원과 3차원 분자의 공동 사전 학습을 실현하는데, 이는 이미지와 텍스트 사전 학습에서 분자 사전 학습으로 확장된 전형적인 사례입니다.

논문 제목:Mol-AE: 3D Cloze 테스트 목표를 사용한 자동 인코더 기반 분자 표현 학습

논문 링크:https://icml.cc/virtual/2024/poster/33340

게다가,그들은 또한 기하학적 빈칸을 기반으로 한 분자 자동 인코더 Mol-AE를 제안했습니다.3D 클로즈 테스트의 새로운 훈련 목표를 통해 제안된 모델은 실제 분자 구조에서 원자의 공간적 관계를 더 잘 학습할 수 있습니다. 가장 진보된 3D 분자 모델링 방법과 비교했을 때 Mol-AE는 상당한 성능 향상을 달성했습니다.

단백질의 보편적 사전 훈련에 대한 연구 또한 그들이 선택한 방향입니다. 현재 일반적인 단백질 사전 학습은 크게 DeepMind Alphafold 시리즈, David Baker의 RoseTTAFold 시리즈, Meta ESM 시리즈의 세 가지 범주로 나뉜다고 알려져 있습니다.저우하오 교수 연구팀은 현재 ESM-AA 모델을 개발 중이다.

논문 제목:통합 분자 모델링을 위한 다중 스케일 단백질 언어 모델
논문 링크:https://icml.cc/virtual/2024/poster/35119

Alphafold2에서 Alphafold3로 업그레이드하면 완전한 원자 기반이 구축되고, RoseTTAFold 시리즈에도 동일한 원칙이 적용되기 때문입니다. ESM 시리즈만 아직 완전한 원자 기반을 갖추지 못했습니다. 저우하오 교수의 팀은 작년 9월부터 이 연구를 진행해왔습니다. 원자 어휘와 아미노산 어휘를 결합하면 다양한 규모로 단백질 훈련을 이룰 수 있습니다. 단백질과 소분자의 공동 작업에서 ESM-AA는 ESM, 다른 단백질 사전 훈련 또는 소분자 사전 훈련 기반과 같은 개별 사전 훈련 기반보다 더 나은 성능을 보입니다.

사전 훈련된 부두는 트위터에서도 폭넓은 칭찬을 받았습니다. ESM-AA는 서열 기반의 대표로서, 구조 기반의 대표인 RoseTTAFold와 Alphafold3와 경쟁하게 될 것입니다. "저는 이것이 우리의 미래 목표라고 생각합니다."라고 저우하오 교수는 말했다.

주하오 교수 소개

저우하오(周浩), 1990년생, 박사, 청화대학교 연구원. 그의 연구 방향은 복잡한 기호 시스템을 위한 생성적 인공지능입니다. 주요 응용 분야로는 초대규모 언어 모델, 분자 생성, 단백질 설계, 신소재 발견 등이 있습니다.


그는 ByteDance에서 연구 과학자이자 부국장으로 재직하면서 ByteDance의 텍스트 생성 플랫폼과 AI 지원 약물 설계를 위한 R&D 팀을 이끌었습니다. 그의 R&D 제품은 전 세계 20개국 이상에서 사용되고 있으며, 사용자 수는 10억 명이 넘습니다. 그는 ICML, NeurIPS, ICLR, ACL 등 최고 인공지능 컨퍼런스에서 오랫동안 분야별 의장을 맡아왔으며, 인공지능에 관한 중요한 국제 컨퍼런스에서 80편 이상의 논문을 발표했습니다. 그는 2019년 중국 인공지능 학회 우수 박사학위 논문상, 자연어 처리 분야 최고 국제 학회인 ACL 2021에서 최우수 논문상(1/3350)을 수상했으며, 중국 컴퓨터 학회에서 2021년 NLPCC 신진 학자상을 수상했습니다.