HyperAIHyperAI

Command Palette

Search for a command to run...

딥시크 엔그램(DeepSeek Engram)에서 영감을 받은 게놈 기본 모델의 "외부 두뇌"인 겐그램(Gengram)은 최대 22.61 TP3T의 성능 향상을 달성했습니다.

Featured Image

기본 게놈 모델(GFM)은 생명 코드를 해독하는 핵심 도구로서, DNA 서열 분석을 통해 세포 기능 및 유기체 발달과 같은 중요한 생물학적 정보를 밝혀냅니다. 그러나 기존의 Transformer 기반 GFM은 치명적인 결함을 가지고 있습니다. 바로 폴리뉴클레오티드 모티프를 간접적으로 추론하기 위해 대규모 사전 학습과 집중적인 계산에 의존한다는 점입니다. 이는 비효율적일 뿐만 아니라 모티프 기반 기능 요소 탐지 작업에도 한계가 있습니다.

최근에,BGI 생명과학 연구소와 저장성 지지앙 연구소의 구성원으로 이루어진 지노스 팀이 제안한 겐그램(Genomic Engram) 모델.이는 해당 문제에 대한 혁신적인 해결책을 제시합니다. 이 설계는 생물학적 규칙을 하드코딩하는 것을 피하면서 모델이 유전체 "문법"을 명확하게 이해할 수 있도록 합니다.

게놈 모티프 모델링을 위해 특별히 설계된 경량 조건부 메모리 모듈인 Gengram의 핵심 혁신은 고효율 다중 염기 모티프 메모리 저장소를 구축하는 k-mer 해시 메모리 메커니즘에 있습니다. 모티프를 간접적으로 추론하는 기존 모델과 달리,이 방법은 1~6개 염기 길이의 k-mer와 해당 임베딩 벡터를 직접 저장하고, 로컬 윈도우 집계 메커니즘을 통해 기능적 모티프의 로컬 컨텍스트 의존성을 포착합니다.모티프 정보는 게이트 제어 모듈을 통해 백본 네트워크와 융합됩니다. 연구팀은 최첨단(SOTA) 게놈 모델인 Genos에 Gengram을 통합했을 때, 동일한 훈련 조건에서 여러 기능 유전체학 작업에서 최대 22.61 TP3T의 성능 향상을 달성했다고 밝혔습니다.

서류 주소:https://arxiv.org/abs/2601.22203
코드 주소:https://github.com/BGI-HangzhouAI/Gengram
모델 가중치:https://huggingface.co/BGI-HangzhouAI/Gengram

훈련 데이터는 인간 및 비인간 영장류의 게놈을 포함합니다.

훈련 데이터 세트는 인간 및 비인간 영장류 게놈을 포괄하는 145개의 고품질 하플로타입 분석 및 조립 시퀀스를 포함합니다.인간 염기서열은 주로 인간 팬게놈 참조 컨소시엄(HPRC, 2판)에서 가져왔으며, GRCh38 및 CHM13 참조 게놈을 추가로 활용했습니다. 비인간 영장류 염기서열은 진화적 다양성을 반영하기 위해 NCBI RefSeq 데이터베이스에서 통합했습니다. 모든 염기서열은 원핫 인코딩을 사용하여 처리했습니다. 사용된 어휘에는 네 가지 표준 염기(A, T, C, G), 모호한 뉴클레오티드(N), 그리고 문서 끝 표시자가 포함됩니다.

결정적인,해당 시스템은 절제 실험 및 형식적인 사전 학습을 지원하기 위해 세 가지 데이터 세트를 구축했습니다.

500억 토큰 @ 8,192 (삭제)

2000억 토큰 @ 8k (100억 토큰 사전 학습)

1000억 토큰 @ 32k (100억 토큰 사전 학습 완료)

또한 사람과 비인간의 데이터 혼합 비율을 1:1로 유지하십시오.

게놈 모델링은 "관심 유도"에서 "기억력 향상"으로 전환되고 있습니다.

딥시크 엔그램의 메모리 메커니즘에서 영감을 받은 제노스 팀은 신속하게 겐그램을 개발하고 배포했습니다.이 모듈은 기본 게놈 모델에 명시적인 모티프 저장 및 재사용 기능을 제공하여, 구조화된 모티프 메모리가 부족하고 훈련 데이터의 "암묵적 메모리" 확장에만 의존해야 하는 기존 게놈 모델링 모델(GFM)의 한계를 극복합니다. 이를 통해 게놈 모델링은 "어텐션 유도"에서 "메모리 강화"로 전환됩니다. 모듈 아키텍처는 아래 그림에 나와 있습니다.

겐그램 아키텍처 다이어그램

테이블 생성: k=1부터 6까지의 모든 k-mer 값에 대한 해시 메모리(정적 키 + 학습 가능한 임베딩 값)를 구축합니다.

검색: 창에 나타나는 모든 k-mer 값을 테이블 항목에 매핑합니다.

집계: 먼저 각 k 지점에서 집계한 다음, k에 걸쳐 연결합니다.

게이팅: 게이트는 활성화를 제어하고, 모티프 증거를 잔여 스트림에 기록한 다음, 주의 집중 단계로 들어갑니다.

핵심 설계 특징: 로컬 윈도우 집계(W=21bp)

Gengram은 각 위치에서 단일 n-그램을 검색하는 대신, 고정된 윈도우 내에서 여러 k-mer 임베딩을 집계하여 "국소적이고 구조적으로 일관된" 모티프 증거를 보다 안정적으로 삽입합니다. 연구진은 윈도우 크기 전략을 사용한 검색을 통해 이를 검증했습니다.우리는 21bp가 검증 세트에서 최적의 성능을 달성한다는 것을 발견했습니다.한 가지 가능한 생물학적 설명은 일반적인 DNA 이중 나선 구조의 회전 주기가 약 10.5 염기쌍이므로 21 염기쌍이 정확히 두 번 회전한다는 것입니다. 즉, 21 염기쌍 떨어진 두 염기는 3차원 공간에서 나선의 같은 쪽에 위치하여 유사한 생화학적 환경에 직면하게 됩니다. 이러한 규모에서의 윈도잉은 국소 서열 신호의 위상 일관성을 정렬하는 데 더 적합할 수 있습니다.

평가의 획기적인 개선: 작은 변수들이 큰 변화를 가져왔습니다

연구팀은 Genomic Benchmarks(GB), Nucleotide Transformer Benchmarks(NTB), Long-Range Benchmarks(LRB) 및 Genos Benchmarks(GeB)를 포함하는 다중 표준 벤치마크 데이터 세트를 사용하여 모델에 대한 종합적인 평가를 수행했습니다.다섯 가지 주요 작업 범주를 포괄하는 18개의 대표적인 데이터 세트가 선정되었습니다.유전체 구조 이해, 유전자 조절 예측, 후성유전학적 프로파일링, 변이 효과 및 임상적 영향, 그리고 진화 분석.

Gengram은 약 2천만 개의 파라미터만 가진 경량 플러그인으로, 수천억 개의 파라미터를 가진 기본 모델에서 극히 작은 부분을 차지하지만, 상당한 성능 향상을 제공합니다. 동일한 학습 조건에서 컨텍스트 길이를 8k와 32k로 설정했을 때...Gengram과 통합된 모델은 대부분의 작업에서 통합되지 않은 버전보다 우수한 성능을 보였습니다.구체적인 발현 양상 측면에서스플라이스 부위 예측 작업의 AUC 점수는 0.776에서 0.901로 향상되었으며, 이는 16.11 TP3T 증가에 해당합니다.후성유전학적 예측 작업(H3K36me3)의 AUC 점수는 0.656에서 0.804로 향상되었으며, 이는 TP3T 기준으로 22.61 증가한 수치입니다.

8k 및 32k 컨텍스트에서 Gengram을 추가하기 전후의 벤치마크 결과는 Gengram을 추가한 후 상당한 개선을 보여줍니다.

더욱이, 이러한 성능 향상은 상당한 "데이터 활용" 효과를 동반합니다. Evo2, NTv3, GENERATOR-3B와 같은 주류 DNA 기반 모델과의 수평적 비교에서,겐그램을 통합한 모델은 매우 적은 양의 훈련 데이터와 더 적은 활성화 매개변수만으로도 핵심 작업에서 수십 배 더 많은 훈련 데이터를 사용하는 공개 모델과 경쟁할 수 있습니다.이는 데이터 학습 효율성이 매우 높다는 것을 보여줍니다.

겐그램 모델과 주류 DNA 기반 언어 모델에 대한 평가 비교.

겐그램에 대한 심층 분석

Gengram이 학습 속도를 높일 수 있는 이유는 무엇일까요?

연구팀은 KL 발산(KL divergence)을 학습 과정의 대표적인 진단 지표로 도입하고, LogitLens-KL을 사용하여 각 레이어의 "예측 준비 상태"를 정량화하고 추적했습니다. 그 결과 다음과 같은 사실이 밝혀졌습니다...겐그램을 도입함으로써 모델은 초기 계층에서 더 일찍 안정적인 예측 분포를 형성할 수 있습니다.기준 모델과 비교했을 때, 이 모델의 계층 간 KL 값은 더 빠르게 감소하고 더 일찍 낮은 값 범위에 진입합니다. 이는 효과적인 감독 신호가 더 빨리 사용 가능한 표현으로 조직화되어 기울기 업데이트가 더 직접적이고 최적화 경로가 더 부드러워지며, 궁극적으로 수렴 속도가 빨라지고 학습 효율이 높아짐을 나타냅니다.

이 현상은 갑자기 나타난 것이 아니라, 겐그램의 구조적 설계에 의해 직접적으로 발생한 것입니다.

명시적인 모티프 메모리 검색은 증거에서 표현으로 이어지는 경로를 단축합니다. 유전체학 작업에서 감독 신호는 종종 짧고 희소한 모티프(예: 스플라이스된 컨센서스 서열, 프로모터 관련 단편, 저복잡성 영역 등)에 의해 발생합니다. 기존 트랜스포머 모델은 여러 층의 어텐션/MLP를 통해 이러한 국소적 증거를 점진적으로 "유도하고 강화"해야 하는 반면, 겐그램은 k-mer에 명시적으로 접근하여 이러한 정보 밀도가 높은 국소 패턴을 메모리 형태로 네트워크에 직접 제공합니다. 따라서 모델은 심층 레이어에서 모티프 탐지기를 점진적으로 형성할 필요 없이 처음부터 예측 가능한 상태에 더 가깝게 접근할 수 있습니다.

윈도우 집계 및 동적 게이팅을 통해 주입된 증거는 "안정적이고 제어 가능"해집니다. 겐그램은 위치별로 직접적인 삽입을 수행하지 않고, 고정된 윈도우 내에서 여러 k-mer 임베딩을 집계합니다.또한, 잔여 스트림에 대한 게이트 선택적 쓰기 방식을 적용하여 기능 영역에서는 검색이 활성화되고 배경 영역에서는 억제되도록 합니다. 이러한 "희소하고 정렬된 기능 요소" 쓰기 방식은 한편으로는 노이즈 간섭을 줄이고, 다른 한편으로는 네트워크가 높은 신호 대 잡음비의 훈련 신호를 더 빨리 얻을 수 있도록 하여 최적화 난이도를 낮춥니다.

모티프 메모리는 어디에서 오는 걸까요? 겐그램의 기록 메커니즘에 대한 자세한 설명입니다.

연구팀은 먼저 후속 평가에서 여러 작업에 걸쳐 명확하고 일관된 현상을 관찰했습니다.동일한 훈련 설정에서, 겐그램(Gengram)을 도입함으로써 모델은 전형적인 모티프 기반 작업, 특히 스플라이스 부위 식별 및 후성 유전적 히스톤 변형 부위 예측과 같이 짧은 프로그램 시퀀스에 의존하는 시나리오에서 성능이 크게 향상되었습니다. 예를 들어, 대표적인 작업에서 스플라이스 부위 예측의 AUC는 0.776에서 0.901로, H3K36me3 예측의 AUC는 0.656에서 0.804로 증가하여 안정적이고 상당한 성능 향상을 보여주었습니다.

"이러한 개선은 어디에서 오는가?"라는 질문에 더 자세히 답하기 위해, 연구팀은 측정 지표 수준에서 멈추지 않고 모델의 순방향 전파에서 발생하는 겐그램의 잔여 기록을 추출하고 이를 시퀀스 차원에서 히트맵으로 시각화하여 분석했습니다.결과에 따르면 기록된 신호는 매우 희소하고 고대비 구조를 나타냅니다. 대부분의 위치는 기준선에 가깝고, 날카로운 봉우리를 형성하는 위치는 소수에 불과합니다.더욱 중요한 것은 이러한 피크들이 무작위적인 것이 아니라, 프로모터 근처의 TATA 박스 단편, 저복잡성 폴리-T 단편, 그리고 유전자/엑손과 같은 기능적 영역 경계 근처의 주요 위치를 포함하여 기능적으로 관련된 영역 및 경계와 유의미하게 연관되어 있다는 점입니다.이는 가계도에 글을 쓰는 것이 전체 서열에 무분별하게 정보를 주입하는 것보다는 "결정적인 기능에 대한 국소적인 증거를 파악하는 것"에 더 가깝다는 것을 의미합니다.

위의 현상과 일련의 증거들을 종합해 볼 때,연구자들은 겐그램의 모티프 기억 메커니즘을 "필요에 따른 검색—선택적 기록—구조화된 정렬"로 요약할 수 있다.이 모듈은 게이팅을 통해 검색 및 기록 강도를 제어하여, 기능 정보 밀도가 높은 영역에는 재사용 가능한 모티프 증거를 더욱 적극적으로 주입하고, 배경 영역에서는 기록 활동을 억제하여 노이즈 간섭을 줄입니다. 결과적으로, 모델의 모티프 숙달은 더 이상 대규모 데이터에서 비롯된 "암묵적 기억"에 주로 의존하지 않고, 구조화된 방식으로 표현에 명시적으로 접근하고 해석 가능하게 기록하는 능력으로 전환됩니다.

결론

최근 몇 년 동안 유전체 모델링 분야는 "서열 통계 학습"에서 "구조 인식 모델링"으로 중요한 전환을 겪고 있습니다.

Gengram으로 예시되는 조건부 모티프 메모리 메커니즘은 기존의 집약적 컴퓨팅과는 다른 기술적 경로를 보여줍니다. 다중 기반 기능 모티프를 검색 가능한 구조화된 메모리로 명시적으로 모델링함으로써, 이 모델은 일반적인 아키텍처 호환성을 유지하면서 기능 정보를 보다 효율적이고 안정적으로 활용할 수 있습니다.이 접근 방식은 여러 기능 유전체학 작업에서 상당한 성능 이점을 입증했을 뿐만 아니라 희소 계산, 긴 서열 모델링 및 모델 해석 가능성을 위한 통합 엔지니어링 솔루션을 제공했습니다.

더 나아가, 산업적 관점에서 Gengram이 구현한 "구조화된 사전 정보 + 모듈식 강화" 패러다임은 컴퓨팅 성능, 데이터, 학습 주기 측면에서 대규모 게놈 모델의 한계 비용을 크게 줄여주므로, 신약 개발, 변이 스크리닝, 유전자 조절 분석과 같은 고부가가치 시나리오에서 대규모 배포를 실질적으로 가능하게 합니다. 더 나아가, 이러한 재사용 가능하고 플러그인 방식의 아키텍처 구성 요소는 차세대 게놈 기반 모델의 표준 구성이 되어, 업계가 "더 큰 모델"에서 "더 스마트한 모델"로 나아가도록 이끌고, 학술 연구 결과를 산업 플랫폼 및 임상 응용 분야로 지속적으로 전환하는 속도를 가속화할 수 있을 것입니다.