Command Palette

Search for a command to run...

토론토 대학과 다른 연구진은 NeurIPS 2025에 선정되어 특정 세포의 유전자 발현을 "목표로 제어"하기 위한 Ctrl-DNA 프레임워크를 제안했습니다.

Featured Image

특정 세포의 유전자 발현을 정밀하게 조절하는 것은 유전자 치료 및 합성 생물학과 같은 분야의 발전에 매우 중요합니다. 이 과정은 프로모터와 인핸서와 같은 "시스-조절 요소(CRE)"라고 불리는 DNA 서열에 의존합니다. 이들은 유전자의 "스위치"처럼 작용하여 표적 세포에서 유전자가 "활성화" 또는 "활성화"되는지를 결정하는 동시에 다른 정상 세포에서는 비정상적인 활성화가 일어나지 않도록 합니다. 그러나자연적으로 발생하는 효과적인 CRE의 수는 제한적이며 다양한 생물의학적 응용 시나리오에 정확하게 일치시키기 어렵습니다.더 중요한 것은 DNA 서열의 가능성이 기하급수적으로 증가하고 있다는 것입니다. 예를 들어, 100개의 염기 서열은 4¹⁰⁰개의 조합을 가집니다. 실험을 통해 이를 하나하나 검증하는 것은 매우 어렵습니다. 시간과 노동력이 많이 소요될 뿐만 아니라 실질적인 요구를 충족하지도 못합니다.

현재의 딥러닝 기반 방법은 실험 효율성을 크게 향상시켰지만, 기존 방법은 여전히 여러 가지 과제에 직면해 있습니다.예를 들어, 일부 방법은 기존 DNA의 돌연변이나 무작위 서열 최적화에 의존하는데, 이는 "국부 최적성"의 함정에 쉽게 빠져 생성된 유효 서열의 다양성이 부족하게 됩니다. 자기회귀 언어 모델 기반 접근법은 DNA 서열 패턴을 포착할 수 있지만, "알려진 서열을 모방"할 수 있을 뿐이며 새로운 세포 특이적 CRE를 탐색할 수 없습니다. 강화 학습(RL) 기반 방법은 표적 세포의 조절 효과를 향상시키지만, 다른 세포에 대한 "부작용"의 제어는 간과합니다. 더욱이, 이러한 표준 설계 프레임워크는 종종 생물학적 타당성에 대한 고려를 간과합니다. 생성된 서열이 핵심 전사 인자 결합 부위(TFBS)와 일치하지 않아 실제 조절 기능이 제대로 작동하지 않을 수 있습니다.

세포 특정 CRE의 정밀한 설계의 차이를 메우기 위해 토론토 대학의 한 팀은 창핑 연구소 및 기타 기관과 협력하여 Ctrl-DNA라는 제한적 강화 학습 프레임워크를 개발했습니다.사전 학습된 DNA 언어 모델을 기반으로 하는 이 프레임워크는 강화 학습 알고리즘을 사용하여 최적화 과정에서 두 가지 목표를 동시에 달성합니다. 즉, 표적 세포에서 CRE의 조절 활성을 극대화하는 동시에 비표적 세포에서는 CRE의 활성을 엄격하게 제한하는 것입니다. 또한, 라그랑주 승수라는 수학적 도구를 사용하여 이 두 가지 요구 사항의 균형을 맞추고, 생성된 시퀀스의 생물학적 타당성을 보장하기 위해 실제 DNA의 TFBS 분포를 참조합니다.

연구 결과는 다음과 같습니다.6개의 인간 세포를 설계하는 과제에서, Ctrl-DNA가 생성한 CRE는 "표적 세포 유형에서의 높은 활성"과 "비표적 세포 유형에서의 제약"이라는 두 가지 핵심 지표에서 기존 방법보다 상당히 우수한 성과를 보였습니다.또한 상당한 다양성을 유지하며 합성 생물학에 대한 새로운 솔루션을 제공하여 "제어 가능한 시스템 생성", 유전자 치료에 대한 "비표적 위험 방지", 정밀 의학에 대한 "세포 수준의 맞춤화 수행"을 제공합니다.

관련 연구 결과는 "Ctrl-DNA: 세포 특정 시스 조절 요소 설계를 위한 제약 강화 학습"이라는 제목으로 arXiv 사전 인쇄 플랫폼에 게재되었으며 NeurIPS 2025에 선정되었습니다.

연구 하이라이트:

* 정확한 세포 유형별 유전자 발현을 위한 CRE를 설계하기 위한 도구를 제공하기 위해 새로운 제약 인식 강화 학습 프레임워크가 제안되었습니다.

* 최적화 프로세스 간소화, 실험 효율성 향상, 컴퓨팅 비용 절감

* 실험을 통해 Ctrl-DNA가 기능적 효능과 생물학적 타당성을 모두 가지고 있음이 확인되었습니다.

서류 주소:

https://arxiv.org/abs/2505.20578

공식 계정을 팔로우하고 "Ctrl-DNA"를 입력하면 전체 PDF를 받아볼 수 있습니다.

더 많은 AI 프런티어 논문: 

https://hyper.ai/papers

데이터 세트: 실제 인간 프로모터 및 인핸서 데이터 세트 기반

이 연구에서 연구자들은 실제 인간 프로모터와 인핸서 데이터 세트를 사용하여 Ctrl-DNA를 평가하고 검증했습니다.

안에,인간 프로모터 데이터 세트에는 백혈병에서 유래한 세 가지 세포주에서 얻은 프로모터 활동 데이터가 포함되어 있습니다.세 가지 세포주는 Jurkat, K562, THP1입니다. 세 세포주 모두 중배엽 유래 조혈 세포주로 생물학적 유사성이 높습니다. 이 데이터세트의 각 시퀀스는 250개 염기쌍으로 구성되어 있습니다. 아래 표를 참조하십시오.

인간 프로모터 데이터 세트(정규화된 활동 점수 백분위수 통계)

인간 증강제 데이터 세트에는 대규모 병렬 리포터 분석(MPRA)을 통해 측정된 세 가지 세포주에서 얻은 CRE 활동 데이터가 포함되어 있습니다.세 가지 세포주는 HepG2(간 세포주), K562(적혈구 세포주), 그리고 SK-N-SH(신경모세포종 세포주)입니다. 이 데이터세트의 각 시퀀스는 200개 염기쌍으로 구성되어 있습니다. 아래 표에서 확인할 수 있습니다.

인간 증강제 데이터 세트(정규화된 활동 점수 백분위수 통계)

THP1 세포주에서 25번째 백분위수 활성도가 0.49에 도달하여 우측으로 치우친 분포를 보인다는 점은 주목할 만합니다. 이러한 분포 편향은 THP1 세포주에서 활성을 제한하는 데 어려움이 증가한 부분적인 원인일 수 있습니다.

모델 아키텍처: 사전 훈련된 DNA 언어 모델 기반, 라그랑지안 완화와 결합

Ctrl-DNA는 제약 강화 학습을 기반으로 하는 조절 DNA 시퀀스 설계 프레임워크로, 핵심 목표는 제어 가능한 세포 유형 특이성을 갖춘 CRE를 생성하는 것입니다.기능 구현 측면에서는 표적 세포에서 CRE의 적합도를 극대화해야 합니다. 즉, 유전자 발현을 향상시켜야 하며, 동시에 비표적 세포에서의 적합도를 미리 설정된 임계값 이내로 엄격하게 제어해야 합니다. 동시에, 생성된 시퀀스가 실제 생물학적 법칙을 준수하도록 보장하여 실험 결과는 요구 사항을 충족하지만 적용이 효과적이지 않은 상황을 방지해야 합니다.

이를 위해 연구진은 프레임워크의 사용 편의성, 합리성 및 기타 측면을 고려하고 다음 그림에서 볼 수 있듯이 프레임워크의 세부적인 설계를 수행했습니다.

Ctrl-DNA 프레임워크 개요

모델과 입력 측면에서Ctrl-DNA는 인간 게놈에 대해 사전 학습된 HyenaDNA 자기회귀 게놈 언어 모델을 초기 정책 모델로 미세 조정하고, Enformer 아키텍처를 사용하여 세포 유형별 보상 모델을 학습합니다.대규모 병렬 보고 실험을 통해 측정된 "시퀀스 적합성" 데이터와 결합하여 대상 세포 보상과 대상을 벗어난 세포 보상이 별도로 계산됩니다.

문제 모델링 수준에서연구진은 DNA 시퀀스 설계를 제약된 마르코프 결정 과정(CMDP)으로 전환했습니다. Ctrl-DNA의 핵심 최적화 메커니즘은 제약된 배치별 상대 정책 최적화(CBROP)를 활용합니다. 이 메커니즘은 라그랑지안 완화(Lagrangian relaxation)를 통해 제약된 최적화 문제를 제약되지 않은 원초-이중 최적화 문제로 변환합니다. 최적화 과정은 반복적이며, 정책 업데이트는 학습률에서 라그랑지안 목적 함수의 기울기를 따릅니다. 비대상 셀 보상은 라그랑지 승수를 조정하여 제약됩니다. 즉, 임계값을 초과하는 비대상 셀에 대한 제약을 강화하기 위해 라그랑지 승수를 증가시키고, 임계값을 충족하는 비대상 셀에 대한 제약을 약화하기 위해 라그랑지 승수를 감소시킵니다.

Ctrl-DNA는 훈련의 복잡성을 줄이기 위해 기존 강화 학습에서 가치 모델에 대한 의존성을 버렸습니다.정규화된 이점은 배치 데이터 통계를 기반으로 직접 계산되어 "높은 목표 보상 + 낮은 오프타겟 보상"의 순서를 선택하기 위한 전략 최적화를 안내합니다.

전략 업데이트 목적 함수를 설계할 때, 연구진은 "프루닝 대체 목적"과 "KL 정규화"를 조합하여 사용했습니다. 프루닝을 통해 전략 돌연변이를 제한하고, 현재 전략과 초기 참조 전략 간의 KL 발산을 도입하여 생성된 시퀀스와 자연 DNA 패턴의 일관성을 보장함으로써 궁극적으로 전략 업데이트 목적 함수를 형성했습니다.

생물학적 타당성을 더욱 보장하기 위해 Ctrl-DNA는 TFBS 빈도 상관관계를 추가 제약 조건으로 도입합니다. 먼저, FIMO 도구를 사용하여 실제 매우 특이적인 CRE 시퀀스에서 TFBS를 스캔하여 실제 TFBS 빈도 벡터를 생성합니다. 생성된 각 시퀀스에 대해 해당 TFBS 빈도 벡터를 계산합니다. 피어슨 상관 계수를 추가 제약 조건 보상으로 사용하고, 해당 라그랑주 승수를 [0, λmax] (λmax ≤ 1)로 조정합니다. 이를 통해 생물학적 타당성과 객관적 최적화의 균형을 맞추고, 모델 탐색 능력을 저하시킬 수 있는 과도한 제약 조건을 방지합니다.

모델 학습 안정성을 보장하기 위해 연구진은 실험에 사용된 하이퍼파라미터 설정을 시연했습니다. 모든 모델은 Adam 옵티마이저를 사용하여 학습되었으며, 정책 학습률은 1e-4, 배치 크기는 256, 학습 에포크는 100회였습니다. 실험은 아래 그림과 같이 40GB 메모리를 갖춘 단일 NVIDIA A100 GPU에서 학습되었습니다.

실험적 하이퍼파라미터

실험 결과: 8가지 유형의 기준선 방법과 비교했을 때 Ctrl-DNA는 확실한 장점이 있습니다.

Ctrl-DNA의 성능 평가 실험은 위에서 언급한 여섯 가지 세포주를 대상으로 인간 인핸서와 프로모터라는 두 가지 주요 설계 과제를 중심으로 진행됩니다. AdaLead, 베이지안 최적화(BO), CMA-ES, PEX를 포함한 진화 알고리즘, RegLM(생성 모델), TACO, PPO, PPO-Lagrangian을 포함한 강화 학습 기법을 포함한 여덟 가지 유형의 기준 기법과 비교하여 세포 유형 특이성, 생물학적 타당성, 서열 다양성 등 다차원에서 효과성과 실용성을 검증합니다.

Ctrl-DNA는 세포 유형별 한정 측면에서 상당한 이점을 보여줍니다.아래 그림에서 볼 수 있듯이, 가로축은 오프타겟 세포 유형의 적합도를, 세로축은 타겟 세포 유형의 적합도를 나타냅니다. 오른쪽 상단에 표시된 방법은 타겟 세포 적합도 최대화와 오프타겟 발현 최소화 간의 최적의 균형을 나타냅니다.

세포 유형 특이성 비교

인핸서 설계의 경우, Ctrl-DNA는 모든 제약 조건(δ = 0.3, 0.5, 0.6)에서 비표적 제약 조건을 충족하면서도 가장 높은 표적 세포 적합도를 일관되게 달성했습니다. 이는 비표적 제약 조건을 엄격하게 충족하면서도 표적 세포 적합도를 극대화했음을 의미합니다. 또한, TACO 및 CMAES와 같은 방법은 표적 세포에서 높은 발현을 달성했지만, 비표적 세포 적합도를 억제하지 못해 세포 유형 특이성이 낮았습니다.

프로모터 설계 과제의 경우, 세 가지 표적 세포 유형 모두 중배엽 유래의 조혈 세포이기 때문에 전사 유사성이 매우 높아 이 과제에 상당한 어려움을 야기하지만 Ctrl-DNA는 여전히 우수한 성능을 보입니다.실험에서는 테스트를 위해 세 가지 다른 제약 임계값(δ=0.4, 0.5 및 0.6)을 설정했습니다.Ctrl-DNA는 표적 세포 유형의 적합도를 최대화하고 제약 임계값 δ=0.5 및 0.6을 충족할 때 모든 기준선보다 우수한 성능을 보였습니다.또한 활성 분포가 오른쪽으로 치우친 THP1 세포와 같은 경우(위의 데이터 세트 섹션에서 언급했듯이 25번째 백분위수 활성이 0.49에 도달함)에는 어떤 방법도 오프타겟 활성을 δ=0.4의 엄격한 임계값으로 억제할 수 없지만 Ctrl-DNA는 모든 방법 중에서 제약 요구 사항에 가장 가까운 방법입니다.

아래 그림에서 볼 수 있듯이, 생물학적 타당성 검증에서 Ctrl-DNA는 모든 세포 유형에서 인간 프로모터와 인핸서에 대해 가장 높은 보상 차이(ΔR)를 달성하여 DNA 서열의 세포 특이적 적합도를 더 잘 최적화함을 나타냅니다. 모티프 관련성 측면에서도 Ctrl-DNA는 THP1 프로모터 디자인을 제외한 대부분의 세포 유형에서 더 우수한 성능을 보였습니다.

인간 인핸서 및 인간 프로모터 데이터 세트(임계값 0.5)에서 각 표적 세포 유형에 대한 다양한 방법의 성능 비교

이러한 불일치를 더욱 자세히 살펴보기 위해 연구진은 THP1 적합도 90 백분위수에 해당하는 프로모터 서열에서 모티프를 추출했습니다. 위양성을 방지하기 위해 q < 0.05의 임계값을 사용하여 생성된 서열과 참조 세트 간의 모티프 상관관계를 재평가했습니다. 이는 위 그림에서 모티프 Corr†로 표현됩니다. 그 결과, Ctrl-DNA는 이처럼 엄격한 설정에서도 모든 기준선보다 우수한 성능을 보였으며, 상관계수는 0.60으로 증가했습니다. 반면 대부분의 기준선에서 상관관계는 감소하여 기능적으로 유의미한 조절 모티프를 우선적으로 포착할 수 있음을 보여주었습니다.

연구진은 발견된 특정 TFBS의 빈도를 더욱 자세히 분석하기 위해 HepG2 간세포주와 K562 적혈구 세포주에 특정한 모티프에 대해 생성된 시퀀스를 특별히 조사했습니다.아래 그림에서 볼 수 있듯이, Ctrl-DNA로 생성된 HepG2 시퀀스는 HNF4A 및 HNF4G와 같은 간 특이적 모티프의 빈도가 가장 높습니다. 마찬가지로, K562에 대해 생성된 시퀀스는 GATA1 및 GATA2와 같은 적혈구 특이적 모티프의 빈도가 가장 높습니다. 이는 Ctrl-DNA가 표적 세포의 적합도를 최적화할 뿐만 아니라, 기저 세포 유형 특이성을 반영하는 조절 패턴을 학습함을 보여줍니다.

선택된 세포 유형별 전사 인자에 대한 모티프를 포함하는 Ctrl-DNA는 인핸서 세그먼트를 생성합니다.

시퀀스 다양성 측면에서 Ctrl-DNA는 대부분의 기준선과 동등하거나 더 높은 다양성을 달성하여 규제 제어를 희생하지 않고도 다양한 시퀀스를 생성할 수 있는 능력을 확인했습니다.다음 그림과 같이:

인간 인핸서 및 프로모터 데이터 세트에 대한 시퀀스 다양성 점수 생성

마지막으로, 연구진은 절제 실험을 통해 Ctrl-DNA 코어 모듈의 효과를 더욱 검증했습니다. TFBS 정규화 모듈의 역할 또한 확인되었으며, 이는 생물학적으로 현실적인 패턴으로 시퀀스를 효과적으로 유도합니다.

AI 기반 DNA '스위치' 설계, 새로운 장을 열다

과거에는 조절 DNA 서열 "스위치"의 설계가 주로 수많은 수동적 검사를 반복하는 "시행착오"에 의존했습니다.이제 AI 기술을 결합하면 알고리즘을 사용하여 "어떤 DNA 시퀀스가 표적 조절 단백질과 가장 일치도가 높은지"를 예측할 수 있으며, 이를 통해 설계 효율성과 정확도가 크게 향상됩니다.이는 AI 기반 DNA 스위치 설계가 새로운 방향으로 자리 잡은 핵심 이유이기도 하며, 이를 통해 유전자 치료 및 합성 생물학과 같은 분야가 '광범위한' 수준에서 '정밀한' 수준으로 직접 발전하게 됩니다.

이 논문은 "AI 기반 DNA 스위치 설계"라는 큰 나무에서 맺은 큰 열매 중 하나일 뿐입니다. 과거를 돌아보면, 이미 많은 연구실에서 관련 연구를 수행해 왔습니다.

예를 들어, 잭슨 연구소, 브로드 연구소, 예일 대학의 팀은 "세포 유형을 표적으로 하는 cis 조절 요소의 기계 유도 설계"라는 제목의 연구를 Nature에 발표했습니다.이 연구에서는 인공지능을 사용하여 수천 개의 새로운 DNA 스위치를 설계했습니다.이러한 스위치는 다양한 세포 유형에서 유전자 발현을 정밀하게 제어할 수 있습니다. 특히, 연구진은 CRE 활성을 정확하게 예측할 수 있는 심층 합성곱 신경망(말리노이 신경망)을 구축하고, 특정 기능을 가진 CRE를 설계하기 위한 모듈형 플랫폼(CODA)을 개발했습니다. 이 플랫폼은 리포터 유전자 개발, CRISPR 치료법, 유전자 치환 방법 등에 강력한 도구를 제공합니다.

종이 주소:

https://www.nature.com/articles/s41586-024-08070-z

또한, 위 논문에서 언급된 제넨텍(Genentec)의 RegLM도 있습니다. "자기회귀 언어 모델을 이용한 현실적인 조절 DNA 설계"라는 제목의 연구에서,우리는 합성 CRE를 특정 속성으로 설계하기 위해 지도 학습 시퀀스 함수 모델과 결합된 자기회귀 언어 모델을 기반으로 하는 RegLM이라는 프레임워크를 소개합니다.마찬가지로 RegLM 역시 HyenaDNA 프레임워크를 기반으로 합니다. 기능적 라벨을 힌트 토큰으로 인코딩하여 DNA 시퀀스 접두사에 추가하고, 다음 토큰 예측을 수행하도록 모델을 학습시키거나 미세 조정하여 원하는 기능을 가진 DNA 시퀀스를 생성합니다. 동시에, 생성된 시퀀스를 스크리닝하기 위해 지도 학습 시퀀스-활성 회귀 모델을 결합합니다.

서류 주소:

https://genome.cshlp.org/content/34/9/1411.full#aff-1

요약하자면, Ctrl-DNA의 개발은 DNA 스위치 설계에 있어 의심할 여지 없이 또 다른 진전입니다. 생성된 시퀀스의 합리성과 기능성을 더욱 향상시키기 위해 추가적인 생물학적 제약 조건을 도입하거나, 라그랑주 승수(Lagrange multiplier)를 조정하는 등 여전히 시급한 개선이 필요한 몇 가지 문제나 영역이 있지만, 이러한 도구의 개발 및 개선은 의심할 여지 없이 DNA 스위치 설계의 새로운 장을 열었으며, 인공지능과 생물학이라는 학제 간 과학의 지속적인 발전을 촉진했습니다.