AlphaFold 3가 출시되었습니다! 폐쇄형 소스이지만 과학적 연구용으로는 사용 가능하며, DeepMind의 자회사가 가까이에 있으며 먼저 상업적 사용을 추진하고 있을까?

5월 8일(현지 시간), 구글 딥마인드와 자회사인 아이소모픽 랩스가 공동으로 알파폴드 3를 출시했습니다.
DeepMind는 AlphaFold 3가 모든 생명체 분자(단백질, DNA, RNA, 리간드 등)의 구조와 상호작용을 전례 없는 정확도로 성공적으로 예측했다고 밝혔습니다. 기존 예측 방법과 비교했을 때,AlphaFold 3는 단백질과 다른 분자 유형 간에 최소 50% 더 많은 상호작용을 발견했으며, 일부 중요한 상호작용 범주에서는 예측 정확도가 두 배로 높아졌습니다.
AI for Science를 관심 있게 지켜보는 독자라면 AlphaFold에 대해 잘 알고 있을 것입니다. AlphaFold는 처음 출시되었을 때 "획기적인 혁신"이라는 찬사를 받았습니다. AlphaFold 2는 2021년 Science에서 "올해의 혁신"으로, Nature에서 "올해의 방법"으로 선정되어 AI와 생물학의 적용 한계를 끊임없이 깨고 앞장서고 있습니다.
오늘날 AlphaFold 3는 다시 한번 사람들의 인식을 새롭게 했습니다. "모든 생명 분자는 예측 가능하다"는 말은 어떻게 실현될까요? 기술과 성능 측면에서 어떤 획기적인 발전이 있었나요? DeepMind에서 탄생한 Isomorphic Labs는 어떤 역할을 하나요?
Pairformer 모듈은 Evoformer를 대체하고, 확산 모듈은 구조 모듈을 대체합니다.
연구진은 보다 일반적인 화학 구조를 수용하고 모델 학습의 데이터 효율성을 개선하기 위해 AlphaFold 2의 구조와 교육 절차를 크게 개선했습니다. 이제 분자 입력 목록이 주어지면 AlphaFold 3는 이들의 3D 구조를 생성하고 이들이 어떻게 서로 맞물리는지 보여줄 수 있습니다.

위 그림에서 볼 수 있듯이 AlphaFold 3의 전반적인 구조는 AlphaFold 2와 비슷합니다. 두 모델 모두 화학 복합체의 페어링 표현을 진화시키기 위한 큰 백본을 갖추고 있습니다. AlphaFold 3는 AlphaFold 2의 Evoformer를 더 간단한 Pairformer 모듈로 대체합니다.이를 통해 다중 시퀀스 정렬(MSA) 처리량이 줄어들고 MSA 모듈의 수는 4개로 줄어듭니다. AF3의 MSA 표현은 더 저렴한 쌍 가중 평균화 방법을 사용하여 처리되며, 후속 처리 단계에서는 쌍별 표현만 사용됩니다.

연구진은 AlphaFold 2에서 구조 모듈의 복잡성을 대부분 제거해도 예측 정확도에는 거의 영향을 미치지 않는 반면, 백본 프레임워크와 측쇄 꼬임 표현은 유지하면 일반 분자 그래프의 복잡성이 증가한다는 것을 관찰했습니다.
그래서 AlphaFold 3에서는엔지니어들은 아미노산 특정 프레임워크와 측쇄 비틀림 각도를 기반으로 작동하는 AlphaFold 2 구조 모듈을 대체하여 확산 모듈을 사용하여 원시 원자 좌표를 직접 예측했습니다.후자는 쌍별 표현을 사용하여 명시적인 원자 위치를 생성합니다. 확산 과정의 다중 스케일 특성(개선된 국부적 구조를 갖춘 낮은 노이즈 레벨 유도 네트워크)은 입체화학적 손실을 제거하고 네트워크의 결합 패턴을 특수하게 처리하는 것을 가능하게 하여 임의의 화학적 구성을 쉽게 처리할 수 있습니다.
구체적으로,확산 모듈은 회전 프레임이나 등변량 처리가 필요 없이 원시 원자 좌표와 대략적인 추상 라벨 표현에서 직접 작동할 수 있습니다.연구진은 먼저 "노이즈가 있는" 원자 좌표를 입력받아 확산 모델을 훈련한 다음 실제 좌표를 예측했습니다. 이 과정에서는 모델이 다양한 길이 규모에서 단백질 구조를 학습해야 하는데, 작은 노이즈 하에서의 노이즈 제거 작업은 매우 국소적인 입체화학을 이해하는 데 중점을 두는 반면, 높은 노이즈 하에서의 노이즈 제거 작업은 시스템의 대규모 구조를 강조합니다.
추론 시점에서 모델은 먼저 무작위 노이즈를 샘플링한 다음 반복적인 노이즈 제거를 수행하여 최종 구조를 생성합니다. AlphaFold 3는 답변 분포를 생성하는 생성적 학습 절차라는 점을 언급할 가치가 있습니다. 즉, 각 답변에 대해 모델이 해당 위치가 불확실하더라도 국소적 구조(예: 측쇄 결합의 기하학)를 결정할 수 있다는 의미입니다. 그러므로,AlphaFold 3는 일반 리간드의 복잡성을 처리하는 동시에 잔류물의 비틀림 기반 매개변수화와 구조적 위반 페널티를 모두 피합니다.

위 그림에서 보듯이, Protein-dsDNA(단백질-이중가닥 DNA 상호작용) 예측 성능 비교에서 AlphaFold 3의 성공률은 64.8%에 달했지만, RosettaAlphaFold2NA의 성공률은 28.3%에 그쳤습니다. 단백질-항체(단백질과 항체의 상호작용) 예측에서 AlphaFold 3의 정확한 성공률은 62.9%인 반면, 다른 시스템의 성공률은 29.6%에 불과합니다.
* RosettaAlphaFold2NA는 Rosetta의 고전적인 모델링 기술과 AlphaFold 2를 결합한 것입니다.
알파폴드의 성장 이력: 6년 만에 4회 연속 도약하는 우수한 학생
알파고가 세계적인 바둑 거장 이세돌을 물리친 후, "알파 시리즈"가 공식적으로 사람들의 관심을 끌게 되었습니다. DeepMind에 따르면, AlphaGo가 유명해진 직후인 2016년에 이 팀은 단백질 접힘 문제를 연구하기 시작했습니다.
2018년 말 제13회 CASP(단백질 구조 예측의 중요 평가)에서AlphaFold는 98명의 참가자 중 1위를 차지했으며, 43개 단백질 중 25개의 구조를 정확하게 예측했습니다.같은 그룹에서 2위를 차지한 참가자는 3개의 옵션만 정확하게 예측했습니다.
당시 '1세대' 알파폴드는 이미 놀라운 강도를 입증했습니다. AlphaFold 1은 수천 개의 알려진 단백질을 기반으로 학습되었으며, 신경망을 사용하여 아미노산 쌍 사이의 거리와 이를 연결하는 화학 결합 사이의 각도를 예측한 다음 예비 구조를 조정하여 가장 에너지 효율적인 배열을 찾았습니다.
하지만 연구팀은 패턴 인식에서 얻은 국소적 물리학과 가이드 잠재력을 결합한 AlphaFold 1의 접근 방식이 사슬을 따라 멀리 떨어진 잔류물 간의 상호 작용보다 시퀀스에서 근처에 있는 잔류물 간의 상호 작용을 과도하게 고려하는 경향이 있다는 것을 발견했습니다. 결과적으로 AlphaFold 1은 실제보다 약간 더 많은 2차 구조(α 나선 및 β 시트)를 가진 모델을 선택하는 경향이 있습니다(일종의 과적합).
기술적인 관점에서 보면, AlphaFold 1에 사용된 소프트웨어 설계는 여러 모듈로 구성되어 있으며, 각 모듈은 개별적으로 훈련되어 유도된 잠재력을 생성한 다음 물리 기반 에너지 잠재력과 결합됩니다.
따라서 2020년에 출시된 AlphaFold 2는 하위 네트워크를 단일의 차별화된 엔드투엔드 모델과 결합했습니다.이 시스템은 전적으로 패턴 인식에 기반을 두고 있으며, 단일 앙상블 구조로 앙상블 방식으로 훈련됩니다.
AlphaFold 2는 단백질 단량체 구조에 대한 매우 정확한 예측을 달성했으며, DeepMind 팀은 이후 복합체 예측에 더욱 주력했습니다. 2021년 10월, DeepMind는 AlphaFold-Multimer라는 업데이트를 출시했습니다.이는 AlphaFold 2의 확장판으로, 다양한 단백질 복합체를 모델링할 수 있습니다.
AlphaFold 2 튜토리얼의 원클릭 배포:
https://openbayes.com/console/public/tutorials/m6k2bdSu30C
연구진은 4,433개의 단백질 복합체를 테스트하고 이종중합체와 동종중합체의 접촉 계면에서 AlphaFold-Multimer의 예측 정확도를 조사한 결과, 각각 67%와 69%에 도달했으며, 각각 23%와 34%에 대한 매우 정확한 예측이 가능했습니다.
이후 2년간 침묵했던 알파폴드가 다시 한번 모두를 놀라게 했다. 단백질 구조 예측의 정확도를 더욱 향상시켰을 뿐만 아니라, RAN 예측 기능도 추가되었습니다. 2023년 10월 마지막 날,DeepMind는 AlphaFold의 최신 진행 상황을 공개했습니다(논문에서는 AlphaFold-latest라고 불렀는데, 현재는 AlphaFold 3인 것으로 보입니다).

서류 주소:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/a-glimpse-of-the-next-generation-of-alphafold/alphafold_latest_oct2023.pdf
DeepMind는 차세대 AlphaFold 모델이 단백질 데이터 뱅크(PDB)의 거의 모든 분자를 원자 수준의 예측 정확도로 예측할 수 있다고 밝혔습니다. 이를 통해 생물학적 거대 분자의 여러 핵심 범주에 대한 새로운 이해가 열릴 뿐만 아니라 예측 정확도도 크게 향상되었습니다. 이러한 생체거대분자 종류에는 리간드(소분자), 단백질, 핵산(DNA와 RNA), 번역 후 변형(PTM)이 있는 생체거대분자가 포함됩니다.
2023년 말부터 모두의 기대를 모았던 차세대 알파폴드3가 드디어 출시되었습니다. 그 역량은 분명히 업계와 학계를 실망시키지 않았지만, 모든 당사자의 공동 노력이 필요한 더 중요한 문제가 여전히 있습니다.AlphaFold 3를 실험실에서 꺼내 제약품 생산 라인에 적용하는 방법, 더 많은 과학 연구팀이 이 고급 도구를 사용하여 연구 과정을 최적화할 수 있도록 하는 방법 등입니다.여전히 지속적인 관심과 투자가 필요합니다.
DeepMind 자회사 Isomorphic Labs 등장
AlphaFold 3의 출시에도 무시할 수 없는 팀인 Isomorphic Labs가 등장했다는 점도 주목할 만합니다.
DeepMind에서 탄생한 이 회사는 2021년 11월에 설립되었습니다.이 이름은 생물학과 정보 과학 사이의 잠재적인 동형 매핑에서 영감을 받았습니다. Isomorphic Labs는 AlphaFold를 기반으로 AI 의학 분야에 집중하고 있으며, 인공지능과 머신러닝 방법을 사용하여 약물 발견 프로세스를 가속화하고 개선하여 인류가 가장 파괴적인 질병에 대한 치료법을 찾는 사명을 가지고 있습니다.
2022년 5월, Isomorphic Labs는 스타가 가득한 경영진의 첫 번째 단계를 발표했습니다.

알파고의 아버지로 알려진 데미스 하사비스가 이 회사의 CEO를 맡고 있습니다. 최고 과학 책임자인 마일즈 콩그리브는 임상적으로 평가된 20개의 약물의 설계에 참여했으며, 유방암 치료제로 출시된 키스칼리®(리보시클리브)의 공동 발명자입니다. 최고기술책임자(CTO)인 세르게이 야크닌은 엔지니어링, 머신러닝, 제품, 생명과학, 의학 연구 분야에서 20년 이상의 경험을 보유하고 있습니다. 옥스퍼드 대학교의 박사학위 소지자인 맥스 자더버그가 머신 러닝 부문의 책임자로 활동하고 있습니다.
런던에 본사를 둔 Isomorphic은 창립 이후 약 2년 동안, 처음에 발표한 경영진 외에는 회사의 활동에 대한 어떠한 소식도 발표하지 않았습니다. 데미스 하사비스가 Isomorphic에 대한 자신의 비전을 처음으로 밝힌 것은 2023년 Endpoints News와의 단독 인터뷰에서였습니다.
인터뷰에서 데미스 하사비스는 2021년 11월 이후 회사의 주요 업무에 대해 이야기하면서 다음과 같이 말했습니다."저희는 가장 빠르게 가장 큰 효과를 낼 수 있는 소분자 분야에 먼저 집중하고 있습니다. 그다음에는 단백질-리간드 상호작용, 단백질-단백질 상호작용, 그리고 생물학의 역동적인 특성 등 상호작용 분야에도 큰 관심을 가지고 있습니다. 그리고 화학 분야로 진출하여 화합물의 구조, 표적과의 결합 방식, 결합 친화도 등을 이해하고자 합니다."
데미스 하사비스는 현재 업계와 협력하여 파이프라인을 구축하고 있는지에 대해 "우리의 기술 로드맵에 특히 적합하다고 생각되는 목표와 프로그램을 선정하고, 흥미로운 목표에 대해서는 대형 제약 회사들과 협력할 것입니다. 더 자세한 정보는 추후 공개될 수 있습니다."라고 말했습니다.
2024년 1월, Isomorphic Labs는 Eli Lilly와 Novartis와 30억 달러 규모의 약물 개발 계약 두 건을 발표했습니다. 데미스 하사비스는 "이소모픽은 이전에 다른 대형 제약 회사들과 예비 회담을 가졌지만, 엘리 릴리와 노바티스는 협력에 매우 진심"이라고 밝혔다. 동시에, 이 협력의 주요 목표는 명확합니다. 즉, 시범 프로젝트나 학술 협력에 국한되지 않고 약물을 생산하는 것입니다.
구체적으로, Eli Lilly와의 협력에는 여러 질병 관련 단백질과 경로를 표적으로 하는 치료제 개발이 포함됩니다. 이와 관련하여 데미스 하사비스는 "당사의 독점 기술 플랫폼인 차세대 알파폴드와 대규모 컴퓨팅 역량을 엘리 릴리의 개발 프로젝트에 적용하면 획기적인 약물 설계가 함께 발전할 것입니다."라고 강조했습니다.
노바티스와의 협력은 세 가지 공개되지 않은 표적에 대한 소분자 치료제 발견에 중점을 두고 있습니다. 노바티스 바이오메디컬 리서치(Novartis BioMedical Research)의 피오나 마셜(Fiona Marshall) 사장은 "이번 협력은 인공지능과 데이터 과학부터 의약 화학과 심층적인 질병 분야 전문 지식까지 두 회사의 고유한 강점을 결합하여 AI 기반 약물 발견의 새로운 가능성을 발전시킬 것입니다."라고 말했습니다.
오늘 AlphaFold 3가 출시됨에 따라 Isomorphic Labs의 기술력이 더욱 강화될 것으로 예상되지만, 응용 분야의 관점에서 보면 AI 제약 분야에 대한 투자 붐은 최근 몇 년간 감소했습니다. 높은 연구개발 비용에 직면하여, 첨단기술을 어떻게 실제 생산으로 전환할 것인가는 기업의 미래 방향과 관련된 중요한 문제입니다. DeepMind의 강력한 지원에 힘입어 AlphaFold 3가 가능한 한 빨리 업계에 출시되기를 바랍니다.
또 하나: AlphaFold 서버

AlphaFold 3는 물리 기반 생체 분자 구조 예측 도구를 능가하는 최초의 AI 시스템이며, 현재로선 전체 코드를 오픈 소스로 공개할 계획은 없습니다.하지만 연구팀은 비상업적 연구를 지원하는 AlphaFold Server라는 모델의 공개 인터페이스를 공개하여 전 세계 연구자들에게 문을 열었습니다.
AlphaFold Server 공식 웹사이트를 방문하세요:
알파폴드서버닷컴
생물학자는 마우스를 몇 번만 클릭하면 AlphaFold 3를 사용하여 단백질, DNA, RNA, 선택된 리간드, 이온, 화학적 변형으로 구성된 구조를 모델링하고 단백질이 세포 내의 다른 분자와 어떻게 상호 작용하는지 예측할 수 있습니다. 이 플랫폼은 과학자들이 실험실에서 테스트할 새로운 가설을 세우고, 업무 흐름을 가속화하는 데 도움이 될 수 있으며, 과학자들이 충분한 컴퓨팅 리소스나 머신 러닝 전문 지식을 보유하고 있지 않더라도 사용할 수 있습니다.
이와 관련하여 프랜시스 크릭 연구소 울만 연구실의 연구 과학자인 셀린 부슈는 "AlphaFold Server를 사용하면 더 이상 단순히 구조를 예측하는 데 그치지 않고 관대하게 액세스를 제공하여 연구자가 대담한 질문을 던지고 발견을 가속화할 수 있습니다."라고 칭찬했습니다.
AlphaFold 3의 등장은 과학적 탐구에 있어서 큰 도약일 뿐만 아니라 생물의학 연구 및 개발의 새로운 시대를 여는 핵심 도구라는 점에는 의심의 여지가 없습니다. 이 기술은 다양한 분자 상호작용을 시뮬레이션하는 데 있어 획기적인 진전을 이루었으며, 이는 약물 표적을 정확하게 식별하는 것과 같은 연구 개발 프로젝트에 매우 중요합니다.
DeepMind 팀은 이에 대한 기대감으로 가득 차 있습니다. "우리는 AlphaFold 3의 잠재력을 탐색하기 시작했으며 미래에 무슨 일이 일어날지 기대가 큽니다."
참고문헌:
1.https://cloud.tencent.com/developer/article/2017961
2.https://hub.baai.ac.cn/view/31181
3.https://zh.wikipedia.org/wiki/AlphaFold
4.https://mp.weixin.qq.com/s/18cNw-E-5vU3vKb1J4WWKg