David Baker 팀의 최신 연구는 단백질 서열 생성 모델을 사용하여 매우 높은 성공률로 중복 유전자 설계를 달성했습니다.

1977년, 영국의 생화학자 프레더릭 샌저는 ΦX174 박테리오파지 유전체를 분석하면서 최초로 인지를 뒤집는 현상을 발견했습니다. 이 5.4kb DNA 분자에 인코딩된 단백질의 총 길이는 물리적 용량 한계를 훨씬 넘어섰습니다. 시퀀싱 결과는 다음과 같습니다.두 쌍의 유전자가 서로 다른 판독 프레임을 통해 동일한 DNA 영역을 공유합니다. 이러한 현상을 중복 유전자(OLG)라고 하며 바이러스 세계에서 매우 흔합니다.예를 들어, B형 간염 바이러스의 3.2kb 유전체에서 50% 영역은 여러 쌍의 중복되는 유전자로 덮여 있으며, 알려진 바이러스의 절반 이상이 최소한 하나의 OLG를 포함하고 있습니다.
이러한 비직관적인 유전체 설계는 바이러스의 생존 지혜를 감춥니다. 바이러스가 숙주 세포 내에서 제한된 공간을 두고 경쟁할 때, OLG는 "유전자 스태킹" 전략을 사용하여 단일 뉴클레오티드가 동시에 두 코돈의 인코딩에 참여하도록 하여 컴팩트한 시퀀스에서 기능적 중첩을 달성합니다. 샌거 팀의 발견으로 관련 연구가 시작되었습니다. 이후의 연구에 따르면 OLG에 의해 인코딩된 단백질은 종종 높은 서열 변성도를 보이며, 아미노산 서열 내성으로 인해 두 개의 기능성 단백질이 동일한 DNA 사슬에 공존할 수 있는 것으로 나타났습니다. 더욱 중요한 점은, 명확한 3차원 구조를 형성해야 하는 단백질조차도 서열 배열을 통해 서로 다른 판독 프레임에서 접힘 호환성을 달성할 수 있다는 것입니다.
그러나 핵심적인 질문은 항상 남습니다. 표준 유전 코드에 따르면 아미노산 서열의 퇴화가 겹치는 프레임워크에서 임의의 기능적 단백질 쌍의 접힘을 지원할 수 있을까요? 뉴클레오티드가 이중 코딩을 고려해야 할 때, 단백질 접힘을 위한 서열 공간이 심하게 제한됩니까?
워싱턴 대학의 데이비드 베이커 팀은 최근 고급 생성 모델을 사용하여 합성 OLG 설계 연구를 수행하고 엔지니어링 관점에서 그 실행 가능성을 검증했습니다.연구팀은 두 단백질 계열에 대해 겹치는 서열을 설계하여 고도로 정렬된 신규 단백질 구조를 인코딩했습니다. 컴퓨터 시뮬레이션과 실험적 검증 모두 매우 높은 성공률을 보였습니다. 중복되는 제약 조건 하에서 대체 판독 프레임은 명확한 3차원 접힘을 수용할 수 있을 뿐만 아니라 구조적 안정성과 기능적 무결성도 중복되지 않는 시퀀스와 유사했습니다.
관련 연구 결과는 "단백질 서열의 심층 생성 모델을 사용한 중복 유전자 설계"라는 제목으로 bioRxiv에 사전 인쇄본으로 게재되었습니다.

서류 주소:
https://doi.org/10.1101/2025.05.06.652464
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 다차원 데이터 리소스와 분석 방법 통합
유전 코드의 가소성과 단백질 설계에서의 응용을 분석하기 위해 본 연구에서는 다차원 데이터 리소스와 분석 방법을 통합하여 이론적 설계부터 실험적 검증까지 완전한 연구 체인을 구축했습니다.
유전 코드 무작위화 연구에서이 연구에서는 아미노산 순열과 코돈 셔플러 전략을 기반으로 1,000개의 대체 코돈 조합을 생성했습니다.이 데이터 세트는 명확한 알고리즘 설계를 통해 샘플 다양성과 균일성을 보장하고, 코돈 재배열의 기능적 영향을 평가하기 위한 통계적 벤치마크를 제공합니다.
동시에 본 연구에서는 3개의 대표적인 2차 구조 표적 단백질을 선정하고 9개의 쌍을 이루는 조합을 구축하였으며, 이를 통해 변수를 통제하는 전제 하에 실험 조건의 표준화를 달성하고 유전 코드 변이와 단백질 구조 기능 간의 상관관계 분석을 효과적으로 연결하였다.
단백질 도메인 서열 분석 단계에서 이 연구는 Pfam 37.0 데이터베이스에서 시드 서열을 추출하고, 길이가 100개 아미노산인 하위 영역을 무작위로 샘플링하고, 마르코프 모델을 사용하여 k-mer 분포를 유지하는 합성 단백질 서열을 생성했습니다.이 방법은 생물정보학적 스크리닝과 통계적 모델링을 결합하여 천연 단백질의 서열 특성을 유지하는 동시에 제어 가능한 난수 변수를 도입하여 대조 샘플을 생성합니다.이는 후속 분석을 위해 자연적인 특성과 인공적으로 설계된 특징을 결합한 혁신적인 데이터 세트를 제공합니다.
단백질 언어 모델 임베딩 분석에서 연구진은 ESM2, ESM3, ProstT5의 은닉층 특징을 추출하고 위치 평균화 후 UMAP 알고리즘을 통해 2차원 공간에 투영했습니다. n_neighbors = 15와 같은 매개변수를 정확하게 설정함으로써, 고차원 시퀀스 피처가 직관적인 토폴로지 맵으로 변환됩니다.시퀀스 유사성 구조를 유지하는 동시에, 모델 간 비교를 위한 통합된 시각화 프레임워크를 제공합니다.이는 계산 생물학과 데이터 시각화의 최첨단 조합을 보여줍니다.
실험 검증 단계에서,연구진은 192개의 중복되는 유전자를 복제하고 재조합하여 384개의 프레임 이동 단백질 변형체를 만들어냈습니다.실험에서 주요 매개변수는 엄격하게 제어되었습니다. 37°C에서 20시간 동안 배양하여 대장균 발현 시스템의 안정성을 보장했고, 6M 구아니딘 염산염 구배 재생성 방식을 통해 포함체 단백질의 올바른 접힘이 보장되었습니다. 분자 설계부터 정제 및 특성 분석까지 전체 과정에 대한 정량적 제어는 연구 결론의 재현성을 향상시킬 뿐만 아니라 단백질 공학을 위한 표준화된 실험 패러다임을 제공합니다.

생성 모델 기반 OLG 설계: 다중 프레임워크 호환 시퀀스 동기화 최적화 방법
본 연구에서는 중복 유전자(OLG) 설계에서 코딩 프레임의 상호 의존성으로 인해 발생하는 시퀀스 공간 제약 문제를 효과적으로 해결하는 계산 알고리즘을 개발하고, 두 단백질 시퀀스의 적응성을 동시에 최적화했습니다.
알고리즘 설계 수준에서 이 연구는 EvoDiff-MSA 및 ProteinMPNN과 같은 생성 모델을 통합했습니다.전자는 MSA 변환기 아키텍처를 기반으로 하며 자기 회귀 확산 타겟 훈련을 통해 타겟 단백질 다중 시퀀스 정렬(MSA)을 기반으로 디자인 시퀀스를 생성할 수 있습니다. 후자는 구조적 조건 생성 모델로서 3차원 구조가 주어졌을 때 해당 단백질 서열을 설계할 수 있습니다. 두 모델 모두 위치별 마스킹과 제한적 샘플링 전략을 사용하여 다양한 오프셋과 프레임 배열을 포괄하는 겹치는 시퀀스 라이브러리를 생성했습니다.
아래 그림 A에서 볼 수 있듯이, 이 연구에서는 5개의 가변 판독 프레임(+1, +2, -0, -1, -2)의 위상 제약에 대한 프레임별 반복 샘플링 전략을 제안했습니다.

아래 그림 B에서 보듯이, -0 프레임워크의 아미노산 호환성 매트릭스를 분석한 결과, 참조 프레임워크의 단일 위치에 평균 2.6개의 호환 아미노산 선택이 존재하여 52ⁿ(n은 서열 길이)개의 잠재적인 중첩 서열 쌍을 형성한다는 것을 발견했는데, 이는 유전 코드의 퇴화로 인해 나타난 설계 공간을 강조합니다. 다른 프레임워크의 자유도는 아래 그림 C에 표시된 것처럼 몬테카를로 근사법을 사용하여 정량화되었습니다. 결과에 따르면 +1과 -1 프레임워크는 자유도가 더 높은 반면(각각 약 2.8과 2.9), -2 프레임워크는 코돈 퇴화의 효율성이 낮아 자유도가 상당히 제한적입니다(약 1.4).

마지막으로, 아래 그림 D에 표시된 것처럼 알고리즘은 체계적으로 시퀀스 위치(스캔 순서)를 스캔하고 인접한 아미노산 제약 조건과 결합하여 각 스캔에서 결합 확률 행렬을 동적으로 업데이트합니다.여러 차례의 반복 과정을 거쳐 생성된 겹치는 시퀀스 쌍은 프레임워크의 호환성을 충족하는 것이 보장됩니다.이 전략은 위상 오프셋이 있는 복잡한 프레임워크로 확장하여 스캔 순서를 편향시키고 생성 모델의 반복 디코딩에 대한 주요 제약 조건을 제공하여 설계 품질을 최적화할 수 있습니다.

자연적 템플릿 제한을 넘어서: 임의의 단백질 쌍의 합성 OLG의 효율적인 생성
실험 설계는 상동성 기반 OLG 설계 평가, 고도로 정렬된 단백질 주쇄 구조의 중복 가능성 분석, OLG 서열의 진화적 접근성 연구, 실험적 검증을 포함한 여러 방향을 포괄합니다.
동족성 기반 OLG 설계 평가에서,아래 그림 A에서 보듯이 연구팀은 박테리아 시키메이트 뮤타아제(CM)와 번역 개시 인자 1(IF1)을 표적으로 선택하고, EvoDiff-MSA 생성 모델을 사용했으며, 다중 시퀀스 정렬(MSA)을 조건부 맥락으로 사용하여 위치별 마스킹과 제한적 샘플링을 통해 완전히 중복되는 3,307개의 시퀀스 디자인을 생성했습니다.
아래 그림 B에서 보듯이 설계된 서열과 자연 서열의 상동성은 38.9%(CM)와 42.3%(IF1)에 불과하지만,그러나 단백질 언어 모델의 임베딩 분석은 2차원 공간에서의 분포가 자연적 서열과 매우 일치한다는 것을 보여줍니다.이는 설계된 시퀀스가 표적 단백질 계열의 신뢰할 수 있는 구성원임을 나타내며, 자연 단백질 계열에 대한 알고리즘의 설계 역량을 검증합니다.

중첩되는 고도로 정렬된 단백질 백본 구조의 실현 가능성을 탐색할 때,아래 그림 A에 표시된 것처럼, 연구자들은 ProteinMPNN 구조 조건 생성 모델을 사용하여 15개의 새로 생성된 주쇄 구조(α, β 및 혼합 접힘 범주를 포함)에 대해 56,250개의 중복 설계와 33,000개의 비중첩 설계를 생성했습니다. 아래 그림 B에서 볼 수 있듯이 AlphaFold2 평가 데이터는중복 설계에 대한 평균 pLDDT 값은 90.2였으며, 이는 중복되지 않는 설계에 대한 92.0과 비슷했습니다.

추가 분석 결과, 아래 그림 CD에서 볼 수 있듯이 코돈 퇴화의 효율성이 낮아 -2 프레임만이 성능이 좋지 않은 것으로 나타났습니다. 무작위 유전 코드 분석 결과, 자연 유전 코드(SGC)는 OLG를 인코딩하는 데 상당한 이점이 있으며, -2 프레임을 제외하고는 좋은 성능을 보이며, 고도로 변성된 아미노산에 대한 구성적 선호도를 갖는 것으로 나타났습니다.SGC 구조가 중첩 시퀀스의 실행 가능성에 영향을 미치는 메커니즘이 밝혀졌습니다.

진화적 접근성 연구에서연구팀은 고정된 수의 돌연변이가 있는 씨앗 단백질 서열로 시작했습니다. 다음 그림에서 보는 바와 같이 GF,연구에 따르면 돌연변이가 전혀 없는 극한 조건에서도 약 11개의 TP3T 디자인이 여전히 높은 구조적 안정성(pLDDT>85, TM>0.7)을 달성할 수 있는 것으로 나타났습니다.자연적인 Pfam 시퀀스를 부모로 사용했을 때 성공률은 3%로 증가했으며, 이 결과는 1차 구성 편차를 유지하는 무작위 시퀀스와 일치했습니다. 이는 고도로 최적화된 천연 단백질이 주요 서열 변화 없이 대체 프레임워크에서 새로운 단백질을 수용할 수 있음을 명확히 보여주며, 진화적 수준에서 OLG의 실행 가능성을 검증합니다.

마지막 실험 검증 부분에서 연구팀은 192개의 중복되는 서열에 대한 재조합 발현과 구조적 특성 분석을 수행했습니다. 결과는 그림 B에 표시된 것처럼54%의 개별 단백질은 성공적으로 발현되었으며, 대부분은 예상했던 2차 구조와 높은 열 안정성을 가지고 있었습니다.

또한, 아래 그림 DF에서 보듯이, 성공률은 단백질의 2차 구조 함량에 따라 달랐으며, α-나선형 단백질의 성공률이 가장 높았습니다. 더욱이, 겹치는 31% 쌍은 성공적으로 정제되었으며, 한 프레임워크의 성공은 다른 프레임워크의 성공에 영향을 미치지 않았습니다.이러한 결과는 OLG 시퀀스의 높은 실행 가능성과 실험적 검증률을 더욱 뒷받침하며, 기능적이고 구조적으로 안정적인 중첩 단백질을 설계하는 데 있어 알고리즘의 효과를 보여줍니다.

합성생물학, OLG 엔지니어링 응용 분야의 최전선 탐색이 점차 심화되고 있습니다.
합성생물학 분야에서는 전 세계 여러 지역의 연구팀과 회사가 중복 유전자(OLG)의 엔지니어링 응용 분야에 대한 심층적인 탐구에 참여하고 있습니다.
예를 들어, 청화대학교의 주팅(Zhu Ting) 연구팀은 거울생물학 시스템 연구에서 상당한 진전을 이루었고 거울 Pfu DNA 중합효소의 완전한 화학적 합성을 성공적으로 달성했습니다.이를 통해 킬로베이스 길이의 거울 DNA 조립이 현실화될 뿐만 아니라, 거울 DNA에 기반한 정보 저장 기술도 개발됩니다.이 기술은 미러 유전자의 코딩 전략을 사용하여 OLG의 양방향 기능적 중첩에 대한 새로운 아이디어를 제공합니다. 거울 DNA의 이중나선 구조가 자연 유전 정보와 거울 유전 정보를 모두 담고 있을 때, 시퀀스 공간의 활용도가 크게 향상되어 인공 게놈의 컴팩트한 설계를 위한 중요한 기반을 제공합니다.
* 논문 링크:https://www.nature.com/articles/s41587-021-00969-6
또한, 매사추세츠 공과대학의 크리스토퍼 보이트 팀은 유전자 회로 설계를 기반으로 한 합성생물학 플랫폼을 개발했습니다. 그들은 원핵생물 유전자 클러스터의 조절 논리를 재구성하여 대사 경로의 모듈식 조립을 성공적으로 달성했습니다. 이 기술 경로는 OLG의 디자인 철학과 긴밀하게 일치합니다.여러 기능 유전자가 중복되는 서열을 통해 컴팩트한 유전자 모듈을 형성하면, 유전체의 중복을 줄일 수 있을 뿐만 아니라, 조정된 발현을 통해 시스템의 안정성을 향상시킬 수도 있습니다.예를 들어, 연구팀이 설계한 인공 질소 고정 유전자 클러스터는 OLG 전략을 채택하여 여러 주요 효소의 코딩 시퀀스를 동일한 DNA 영역으로 압축하여 촉매 효율성을 보장하는 동시에 숙주 세포의 대사 부담을 크게 줄였습니다.
* 논문 링크:https://www.nature.com/articles/s41467-022-33272-2
이러한 연구는 OLG가 자연 진화에서 널리 존재함을 보여줄 뿐만 아니라, 공학적 수단을 통해 그 생물물리학적 실현 가능성을 검증한다는 점도 주목할 만합니다. 본 논문에서 제시된 연구에서 데이비드 베이커의 팀은 딥러닝 모델을 사용하여 합성 OLG를 설계했는데, 이는 컴퓨터 시뮬레이션에서 자연 시퀀스와 비슷한 구조적 안정성을 보였습니다. 실험적 검증의 높은 성공률은 중복 코딩의 생물학적 호환성을 더욱 잘 보여줍니다. 기초 연구에서 응용 변환까지 이어지는 이러한 완전한 폐쇄 루프는 합성생물학의 설계 논리를 재구성하고 혁신적인 약물 개발, 정밀 진단, 세포 치료 등 여러 분야에서 새로운 획기적인 발전을 가져올 것으로 기대됩니다.
참고문헌:
1.https://www.tsinghua.edu.cn/info/1181/86148.htm
2.https://tech.huanqiu.com/article/9CaKrnJUV0x
3.https://news.bioon.com/article/4161e88572ad.html