ICLR 2025에 선정된 MIT/UC Berkeley/Harvard/Stanford 등은 생물학적 시퀀스 설계의 병목 현상을 극복하기 위해 DRAKES 알고리즘을 제안했습니다.

오랫동안 단백질 설계 분야의 핵심 병목 현상은 해소되지 않았습니다. 아미노산 서열의 조합 공간은 기하급수적으로 증가하고 있으며, 기존의 계산 방법은 서열의 자연스러움과 안정성을 최적화하는 와중에 종종 하나의 병목 현상을 간과합니다. 유전자 치료 분야에서 과학자들은 유전자 발현을 효율적으로 조절하는 DNA 요소를 설계해야 하는 과제에 직면합니다. mRNA 백신 개발에는 서열 최적화와 번역 효율 향상 간의 모순이 항상 존재합니다. 자연어 생성 작업에서도 엔지니어는 문법적 정확성과 콘텐츠 보안 간의 균형을 찾아야 합니다. 겉보기에 분산된 이러한 과제는 실제로는 동일한 기술적 병목 현상을 나타냅니다.통계적 분포에 맞는 개별 시퀀스를 생성하는 동시에 특정 작업 목표를 최적화하는 방법은 무엇일까요?
이러한 핵심 과제를 해결하기 위해 매사추세츠 공과대학교, 하버드대학교, 스탠퍼드대학교, 캘리포니아대학교 버클리, 미국의 유전공학 기술 기업인 제넨텍의 연구진은 공동으로 혁신적인 알고리즘인 DRAKES를 제안했습니다.강화 학습 프레임워크를 도입함으로써 이 알고리즘은 최초로 이산 확산 모델에서 생성된 전체 궤적에 대한 미분 가능한 보상 역전파를 실현했습니다.실험 결과, DRAKES는 시퀀스의 자연스러움을 유지하면서 다운스트림 작업의 성능을 크게 향상시킬 수 있는 것으로 나타났습니다. 이론적 분석을 통해 이 방법에 대한 분포 충실도와 작업 최적화의 균형을 맞추는 최적의 솔루션 경로가 더욱 명확해졌습니다.
관련 연구 결과는 "DNA 및 단백질 설계에 대한 응용을 통한 보상 최적화를 통한 이산 확산 모델의 미세 조정"이라는 제목으로 ICLR 2025에 선정되었습니다. 오랫동안 단백질 설계 분야의 핵심 병목 현상은 해소되지 않았습니다. 아미노산 서열의 조합 공간은 기하급수적으로 증가하고 있으며, 기존의 계산 방법은 서열의 자연스러움과 안정성을 최적화하는 와중에 종종 하나의 병목 현상을 간과합니다. 유전자 치료 분야에서 과학자들은 유전자 발현을 효율적으로 조절하는 DNA 요소를 설계해야 하는 과제에 직면합니다. mRNA 백신 개발에는 서열 최적화와 번역 효율 향상 간의 모순이 항상 존재합니다. 자연어 생성 작업에서도 엔지니어는 문법적 정확성과 콘텐츠 보안 간의 균형을 찾아야 합니다. 겉보기에 분산된 이러한 과제는 실제로는 동일한 기술적 병목 현상을 나타냅니다.통계적 분포에 맞는 개별 시퀀스를 생성하는 동시에 특정 작업 목표를 최적화하는 방법은 무엇일까요?
이러한 핵심 과제를 해결하기 위해 매사추세츠 공과대학교, 하버드대학교, 스탠퍼드대학교, 캘리포니아대학교 버클리, 미국의 유전공학 기술 기업인 제넨텍의 연구진은 공동으로 혁신적인 알고리즘인 DRAKES를 제안했습니다.강화 학습 프레임워크를 도입함으로써 이 알고리즘은 최초로 이산 확산 모델에서 생성된 전체 궤적에 대한 미분 가능한 보상 역전파를 실현했습니다.실험 결과, DRAKES는 시퀀스의 자연스러움을 유지하면서 다운스트림 작업의 성능을 크게 향상시킬 수 있는 것으로 나타났습니다. 이론적 분석을 통해 이 방법에 대한 분포 충실도와 작업 최적화의 균형을 맞추는 최적의 솔루션 경로가 더욱 명확해졌습니다.
관련 연구 결과는 "DNA 및 단백질 설계에 대한 응용을 통한 보상 최적화를 통한 이산 확산 모델의 미세 조정"이라는 제목으로 ICLR 2025에 선정되었습니다.

서류 주소:
https://doi.org/10.48550/arXiv.2410.13643
"HyperAI Super Neural" 공개 계정을 팔로우하고 "DRAKES"라고 답글을 달면 전체 PDF를 받을 수 있습니다.
오픈소스 프로젝트 "awesome-ai4s"여기에는 100개 이상의 AI4S 논문 해석이 모아져 있으며 방대한 데이터 세트와 도구가 제공됩니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 여러 데이터 세트를 조합하여 DRAKES의 다차원 성능 평가를 달성합니다.
이 연구는 실험적 검증을 뒷받침하기 위해 여러 공개 데이터 세트를 사용하여 규제 DNA 서열과 단백질 서열 설계를 중심으로 진행되었습니다. 조절 DNA 시퀀스를 설계할 때, 이 연구에서는 약 200bp 길이의 DNA 시퀀스 약 700,000개를 포함하는 대규모 인핸서 데이터 세트를 사용했습니다. 대량 병렬 리포터 분석(MPRA)을 통해 인간 세포주에서 인핸서 활동을 측정하여 모델 사전 학습과 보상 오라클 구축을 위한 기본 데이터를 제공했습니다.
이 실험에서는 또한 HepG2 세포주의 크로마틴 접근성 데이터를 도입했습니다.예측된 활동의 신뢰성을 검증하기 위해 합성 시퀀스의 크로마틴 접근성을 독립적으로 평가하는 데 사용됩니다. 또한, JASPAR 전사 인자 결합 프로파일을 사용하여 생성된 시퀀스를 스캔하여 잠재적인 전사 인자 결합 모티프를 찾아내고, 이를 통해 인핸서 활동의 주요 특징을 분석하는 데 도움이 되었습니다.
단백질 서열 설계 과제에서 사전 훈련된 역 폴딩 모델은 천연 단백질의 구조와 서열 데이터를 다루는 PDB 훈련 세트를 기반으로 합니다. 보상 오라클의 훈련은 Megascale 데이터 세트를 사용합니다.이 데이터 세트에는 983개의 자연 및 설계된 도메인에서 약 180만 개의 시퀀스 변형이 포함되어 있습니다.생성된 시퀀스의 기능적 특성을 평가하기 위해 안정성 측정이 제공됩니다. 데이터를 검토하고 표준 프로세스를 사용하여 분할한 후, 333개 도메인의 약 50만 개 시퀀스가 형성되었으며, 이를 사용하여 미세 조정 및 평가를 위한 보상 모델을 구축했습니다. 이러한 데이터 세트를 결합해서 사용하면 연구에서 다양한 생체 분자 설계 작업에서 모델에서 생성된 시퀀스의 기능, 자연스러운 유사성 및 안정성을 효과적으로 검증할 수 있으며, DRAKES 방법의 성능 평가에 대한 다차원적 경험적 지원을 제공할 수 있습니다.
DRAKES 알고리즘: 2단계 아키텍처를 채택하고 이중 실험을 통해 생물의학 시나리오에서의 적용 가능성을 검증합니다.
연구자들은 특정 작업 목표에 대한 보상 함수를 최적화하기 위해 이산 확산 모델을 미세 조정하는 DRAKES라는 알고리즘을 제안했습니다.이 알고리즘은 강화 학습(RL) 프레임워크와 Gumbel-Softmax를 결합한 것입니다.이산 확산 모델에서 보상을 극대화하는 것과 자연스러움을 유지하는 것 사이의 균형이 해결되었습니다. DRAKES의 핵심 아이디어는 KL 발산 제약을 도입하여 보상을 최적화하는 동시에 생성된 시퀀스가 사전 학습된 모델 분포와 유사하게 유지되도록 하는 것입니다.
구체적으로 DRAKES는 샘플링 프로세스와 최적화 프로세스를 위해 각각 설계된 2단계 아키텍처를 채택합니다. 데이터 샘플링 단계에서 알고리즘은 연속 시간 마르코프 체인(CTMC)을 통해 궤적을 생성하고 Gumbel-Softmax 기법을 사용하여 이산 샘플링 프로세스를 미분 가능한 연산으로 변환합니다. 이 기술은 소프트맥스를 통해 분류 분포를 근사화하여 샘플링 신뢰성을 유지하고 저온 매개변수에서 그래디언트 정보를 유지합니다.이 설계는 기존의 이산 확산 모델에서의 미분 불가능성의 한계를 깨뜨립니다.이는 이후의 최적화를 위한 이론적 기초를 제공합니다.
최적화 단계에서는알고리즘은 경험적 목적 함수를 최대화하여 매개변수를 업데이트합니다.절단 역전파 기술과 직선형 Gumbel Softmax 기술을 결합하면 학습 효율성을 효과적으로 개선할 수 있습니다. 이 아키텍처는 생성된 시퀀스의 자연스러움을 보장할 뿐만 아니라 KL 발산 제약을 통한 과도한 최적화의 위험을 피하고, 보상 최대화와 분포 충실도 간의 동적 균형을 달성합니다.

DRAKES 알고리즘의 효과를 검증하기 위해 연구진은 조절 DNA 서열 설계와 단백질 서열 설계라는 두 가지 핵심 작업에 대한 포괄적인 실험 평가를 수행했습니다.실험 결과는 DRAKES가 시퀀스의 자연성을 유지하면서도 표적 속성을 크게 최적화할 수 있는 능력을 체계적으로 보여줍니다.
조절 DNA 서열 최적화 작업에서 DRAKES로 생성된 인핸서 서열은 HepG2 세포주에서 예측 활성(Pred-Activity=0.78)과 크로마틴 접근성(ATAC-Acc=0.81)에서 상승효과를 보였으며, 삼중 뉴클레오티드 상관관계(0.92)와 JASPAR 모티프 상관관계(0.88)는 자연 서열에 가깝게 유지되었습니다. KL 정규화가 없는 버전은 더 높은 예측 활동(Pred-Activity=0.85)을 달성했지만, 독립 검증 지표인 ATAC-Acc(0.72)에서의 성과는 감소했다는 점은 주목할 만합니다. 이는 과도한 최적화로 인해 생성된 시퀀스가 자연스러운 분포에서 벗어날 위험이 있음을 보여줍니다.

단백질 안정성 최적화 작업에서 DRAKES가 생성한 시퀀스는 예상 안정성(Pred-ddG=-1.23 kcal/mol)과 구조적 일관성(scRMSD<2 83% 성공률) 사이에서 가장 좋은 균형을 이루었습니다. 비교 실험 결과, KL 정규화가 없는 버전은 예측 안정성 측면에서 더 나은 성능을 보였지만(Pred-ddG=-1.45 kcal/mol), 구조적 자체 일관성은 상당히 감소했습니다(scRMSD<2 성공률은 61%에 불과함). PyRosetta 물리적 시뮬레이션을 통해 검증한 결과, 목표 주쇄 구조 하에서 DRAKES로 생성된 시퀀스의 깁스 자유 에너지(ΔG=-15.2 kcal/mol)는 기준선 방법보다 21% 낮았으며, 이는 최적화 결과의 물리적 합리성을 다시 한번 확인시켜 주었습니다.

실험 결과는 DRAKES 알고리즘이 시퀀스의 자연스러움(로그 가능도 App-Log-Lik=-1.05)을 유지한다는 것을 보여줍니다.대상 속성의 최적화 기능이 크게 향상되었습니다.유전자 조절 요소의 설계에서 인핸서 활동은 35%에 의해 향상됩니다. 단백질 약물 설계에서 28%는 안정성을 향상시킵니다. 이러한 결과는 주요 생의학적 시나리오에서 DRAKES의 응용 가능성을 검증할 뿐만 아니라, 이산 확산 모델을 기반으로 한 시퀀스 최적화 작업에 대한 새로운 기술적 패러다임을 제시합니다.
중국의 이산 확산 모델 및 생물학적 시퀀스 설계 분야의 혁신적인 혁신
최근 몇 년 동안 중국은 이산 확산 모델과 생물학적 서열 설계 분야에서 이론적 혁신에서 산업적 응용까지 완전한 기술 체계를 구축했으며, 이산 확산 모델의 이론적 틀 안에서 여러 가지 독창적인 방법을 제안했습니다. 예를 들어, 상하이 위안마 인텔리전트 파마슈티컬스가 개발한 3차원 RNA 쌍곡선 불연속 확산 모델은 RNA의 기하학적 특징을 쌍곡선 공간에 내장하고 쌍곡선 기하학의 지수적 성장 특성을 활용하여 유한한 샘플 조건에서 정확한 구조-서열 매핑을 달성합니다. 실험 데이터는 다음을 보여줍니다.생성된 시퀀스와 목표 구조 사이의 유사도는 기존 방법보다 23% 더 높습니다.특히 복잡한 의사매듭 구조의 예측에 있어서 상당한 장점을 보여줍니다.생성 모델과 미분기하학을 통합하는 이러한 혁신적인 접근 방식은 중국이 생물분자 컴퓨팅 분야에서 "자체적으로 정의된 패러다임"의 새로운 단계에 진입했음을 보여줍니다.
유전자 치료 분야에서는복단대학의 리화웨이 연구팀이 개발한 유전성 난청 치료제.DNA 서열의 기능적 발현을 정밀하게 조절함으로써, 임상 시험에서 68%의 청력 개선율을 달성했습니다.해당 기술의 핵심은 '시퀀스 편집-후성유전학적 조절-기능 검증'의 3단계 최적화 시스템을 구축하는 데 있습니다.이는 방법론적 수준에서 이산 확산 모델의 방향 최적화 개념과 깊이 들어맞습니다. 이러한 획기적인 발전은 세포 및 유전자 치료를 주요 방향으로 명확히 제시하고 "알고리즘 설계-실험 검증-임상 전환"의 풀체인 협업 혁신을 요구하는 "중국(베이징) 자유무역시범구 창핑그룹 제약 및 건강산업 지원 조치"(2023)의 정책 지원에 기인합니다.
기사 링크:
https://doi.org/10.1016/S0140-6736(23)02874-X
중국생물정보학센터(CNCB)가 구축한 전용 컴퓨팅 플랫폼은 대규모 생물학적 시퀀스 설계를 위한 전략적 인프라를 제공하며, 기존 실험실에서는 수개월이 걸리는 단백질 접힘 시뮬레이션을 신속하게 완료할 수 있습니다. 푸단대학, 시안교통대학, 중국 의학 아카데미 등 26개 기관이 공동으로 발표한 중국 범게놈 컨소시엄(CPC)의 연구 진행 1단계에서는 중국인만을 위한 최초의 범게놈 참조 지도가 구축되어 중국인 유전 코드를 해독할 수 있는 기반을 마련했습니다."컴퓨팅 파워 + 데이터"의 듀얼 휠 구동 모델은 생물학적 시퀀스 설계의 두 가지 주요 문제점, 즉 집단 특이성 문제와 롱테일 효과의 획기적인 발전을 효과적으로 해결합니다.
AI가 생성하는 생물학적 서열의 잠재적 위험에 직면하여, 전국인민대표대회는 2024년에 "중화인민공화국 생물안전법"을 개정하여 "인공지능 기술 남용으로 인한 생물안전 위험 예방"을 강조했습니다.유전자 편집, 합성생물학 등의 기술에 풀체인 감독을 구현하는 것이 필요합니다.기술 개발을 위한 안전한 경계를 설정합니다.
현재 중국은 이산 확산 모형과 생물학적 서열 설계 분야에서 '이론-응용-시설-표준'의 완전한 혁신 사슬을 형성했습니다. 이러한 발전은 생물의학 연구 및 개발의 기본 논리를 바꿀 뿐만 아니라 새로운 세대의 생명공학 산업 혁명을 일으킬 가능성이 높습니다. 사우디 미디어 메카 신문은 이렇게 보도했습니다. "중국은 서구를 따라잡는 데 그치지 않고 독자적인 혁신적 특징을 구축하고 있습니다. 젊은 세대의 혁신가들은 첨단 기술에 집중하고 있으며, 이를 통해 중국은 세계 최고의 생명공학 강국으로 발돋움하고 있으며, 세계적인 생명공학 강국으로 도약할 것으로 기대됩니다."
참고문헌:
1.https://export.shobserver.com/baijiahao/html/709277.html
2.https://www.ncsti.gov.cn/kjdt/yqdy/cpy2/zchj/202410/t20241012_181850.html
3.https://sghexport.shobserver.com/html/baijiahao/2023/06/15/1051928.html
4.http://news.china.com.cn/2025-01/03/content_117643069.shtml