HyperAIHyperAI

Command Palette

Search for a command to run...

토론토 대학교를 비롯한 연구진은 추론 속도를 3배 향상시키고 유전체 학습에 필요한 계산 비용을 거의 4배 줄이는 dnaHNet을 제안했습니다.

Featured Image

유전체는 생물의 모든 유전 정보를 담고 있으며, 세포 기능, 개체 발달 및 종 진화 방향을 결정합니다.DNA 염기서열 속에 숨겨진 "DNA 구문"은 생명을 지배하는 근본적인 규칙을 구성하며, 현대 생물학이 시급히 해결해야 할 핵심 문제 중 하나입니다.이 문법을 이해하는 것은 기본적인 과학 지식과 관련될 뿐만 아니라 질병 진단, 신약 개발, 합성 생물학 등의 핵심 응용 분야 개발에도 직접적인 영향을 미칩니다.

최근 몇 년 동안 대규모 염기서열 데이터로 사전 학습된 기본 모델들이 이 문제를 해결하는 중요한 경로로 점차 자리 잡고 있습니다. 컴퓨팅 성능, 데이터 규모 및 모델 매개변수의 지속적인 개선에 따라 이러한 모델들은 "스케일링 법칙"과 유사한 성능 향상 추세를 보여왔습니다. Nucleotide Transformer와 Evo로 대표되는 모델들은 매개변수 규모를 수십억 개까지 확장하고 다양한 종의 염기서열 데이터로 학습시켜 변이 효과 예측 및 조절 요소 분석과 같은 작업에서 상당한 진전을 이루었습니다.

하지만 DNA 서열은 본질적으로 경계가 불분명한 연속적인 뉴클레오티드 사슬이며, 이는 자연어와 근본적으로 다른 점입니다. 현재 사용되는 두 가지 주요 모델링 패러다임은 다음과 같습니다.고정 단어 분할과 단일 뉴클레오티드 수준 모델링은 각각 표현력과 계산 효율성 사이에서 명확한 상충 관계를 보여줍니다.전자는 생물학적 기능 단위를 손상시킬 수 있고, 후자는 높은 계산 비용을 수반합니다. 따라서 계산 용이성과 생물학적 정확성 사이의 균형을 맞추는 것이 중요한 과제가 되었습니다. 잠재적인 해결책으로서 동적 단어 분할은 여전히 체계적인 연구가 필요합니다.

이러한 맥락에서,캐나다 토론토 대학교, 벡터 인공지능 연구소, 미국 아크 연구소 등 여러 기관이 공동으로 제안한 dnaHNet 모델은 다음과 같은 특징을 갖습니다.이는 앞서 언급한 병목 현상을 극복하는 새로운 접근 방식을 제시합니다. 관련 연구 결과인 "dnaHNet: 유전체 서열 학습을 위한 확장 가능하고 계층적인 기반 모델"은 arXiv에 사전 공개되었습니다.

연구 하이라이트

* dnaHNet의 연산 효율성은 StripedHyena2를 능가하며, 추론 속도는 Transformer보다 3배 이상 빠릅니다.

* 본 논문에서는 압축률 스케줄링 및 인코더-디코더 균형 조정과 같은 최적의 훈련 전략을 제안합니다.

* 변이 효과 예측 및 유전자 필요성 분류와 같은 무표본 작업에서 선두적인 위치를 차지했습니다.

* 문맥에 따라 달라지는 생물학적 단어 분할을 학습하고 코돈, 프로모터, 유전자간 영역과 같은 기능적 영역에 적응할 수 있습니다.


서류 주소:
https://arxiv.org/abs/2602.10603
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "dnaHNet"이라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.

모델 훈련 및 평가를 위한 다단계 유전체 데이터 세트 설계

모델 학습 및 시스템 평가를 지원하기 위해 본 연구에서는 다층 데이터 시스템을 구축했다.사전 학습 데이터는 유전체 분류 데이터베이스(GTDB)의 처리된 하위 집합에서 가져온 것입니다.이 과정은 Evo 모델 OpenGenome 데이터 세트에 대한 필터링, 품질 관리 및 중복 제거 절차를 엄격하게 준수했습니다. 선별 기준에는 어셈블리 무결성, 오염 수준 및 마커 유전자 함량과 같은 주요 지표가 포함되었으며, 선별 후 각 종 수준 클러스터에 대해 하나의 대표 게놈만 남겼습니다.

최종 데이터 세트는 85,205개의 원핵생물을 포함하며 17,648,721개의 염기서열을 담고 있습니다.전체 뉴클레오티드 수는 약 1440억 개입니다. 모든 서열은 전체 게놈에서 추출되었으며, 최대 8192개의 뉴클레오티드로 구성된 겹치지 않는 세그먼트로 나뉘었습니다.

평가 측면에서 연구진은 모델의 기능을 종합적으로 검증하기 위해 세 가지 상호보완적인 차원으로 구성된 테스트 세트를 구축했습니다. 첫째,로컬 코딩 적합성 수준에서MaveDB에 있는 E. coli K12에서 추출한 총 21,250개의 데이터 포인트로 구성된 12개의 뉴클레오티드 수준 실험 데이터 세트를 사용하여 모델이 지역 코딩 문법과 단백질 적합성 지형을 특성화하는 능력을 평가했습니다.

둘째,전체 게놈 규모에서의 기능 평가 측면에서필수 유전자 데이터베이스(DEG)를 기반으로 62개 세균 종에 대한 이진 필수성 태그를 구축했습니다. 관련 서열 및 주석은 NCBI에서 얻었으며, DEG 항목 이름과 99% 이상의 서열 유사도를 필수 유전자 라벨링 기준으로 사용했습니다. 그 결과 185,226개의 데이터 포인트가 생성되었으며, 이를 사용하여 모델이 장거리 의존성과 유전체적 맥락을 통합하는 능력을 평가했습니다.

마침내,구조적 해석 가능성 측면에서 볼 때,바실러스 서브틸리스(Bacillus subtilis) 게놈을 예로 들어, 기능 주석을 조합하여 서열을 여러 기능 영역으로 나눕니다. 모델 분할 결과와 실제 생물학적 구조 간의 정렬을 분석하여 구조 모델링 능력을 검증합니다.

dnaHNet 모델: 단어 분할이 없는 자기회귀 프론티어 모델

dnaHNet은 명시적인 분할기가 필요 없는 게놈 기반 모델입니다.핵심은 모델이 시퀀스의 구조적 단위를 스스로 학습할 수 있도록 하는 "동적 분할" 메커니즘에 있습니다.이 설계는 고정된 단어 분할로 인한 생물학적 기능 부분의 파편화를 방지하고 뉴클레오티드 단위 모델링의 계산 오버헤드를 완화하여 표현력과 계산 효율성 사이의 더 나은 균형을 달성합니다.

DNAHNet 아키텍처

모델링 형태 측면에서 볼 때,dnaHNet은 게놈 학습을 자기회귀적 서열 예측 작업으로 통합하여 기존 컨텍스트를 기반으로 다음 뉴클레오티드를 예측합니다.전체적인 아키텍처는 계층적 구조를 채택하며, 각 계층은 인코더, 백본 네트워크, 디코더로 구성됩니다. 인코더는 라우팅 메커니즘을 통해 서열에서 정보가 크게 변하는 위치(예: 코돈 경계 또는 조절 영역)를 식별하고, 이에 따라 서열을 암묵적인 블록 표현으로 압축합니다. 백본 네트워크는 Mamba와 Transformer를 결합한 하이브리드 구조를 채택하여 장거리 의존성과 핵심 정보 상호작용을 모두 고려한 압축된 서열을 모델링합니다. 마지막으로 디코더는 이 표현을 다시 뉴클레오티드 해상도로 업샘플링하여 예측 결과를 출력합니다.

이러한 기반 위에 dnaHNet은 유전체 데이터에 맞게 몇 가지 핵심적인 최적화를 거쳤습니다. 첫째, 파라미터 할당 측면에서 약 301 TP3T의 모델 용량을 인코더와 디코더에 할당하여 국소 구조를 특성화하는 능력을 향상시켰습니다.

둘째,2단계 적층 압축 설계 적용:첫 번째 단계에서는 코돈과 같은 짧은 길이의 패턴을 포착하는 데 집중하고, 두 번째 단계에서는 더 긴 범위의 기능적 구조를 모델링하여 압축 효율성과 정보 충실도 사이의 균형을 이룹니다. 또한, 학습 과정에는 자기회귀 예측 손실과 압축률 제약 조건이 통합되어 있어 예측 정확도를 유지하면서 계산 비용을 효과적으로 제어할 수 있습니다.

추론 단계에서 모델은 경계 확률에 기반하여 블록 분할 방법을 동적으로 결정하므로 모델링의 세분성이 맥락에 맞게 조정되어 실제 게놈 구조를 더욱 정확하게 나타낼 수 있습니다.

dnaHNet은 계산 비용을 3.89배 절감하고 다른 멀티태스킹 알고리즘보다 우수한 성능을 보여줍니다.

dnaHNet의 성능을 체계적으로 평가하기 위해 본 연구에서는 이를 StripedHyena2 및 Transformer++라는 두 가지 주요 장서열 게놈 모델과 비교했습니다.이 실험들은 스케일링 특성, 표본 변동이 없는 경우의 효과 예측, 유전자 필요성 예측, 생물학적 구조 모델링 등 다양한 측면을 다룹니다.

스케일링 분석에서,연구진은 고정된 컴퓨팅 예산 내에서 다양한 크기의 모델 100개 이상을 훈련시켰습니다. 서열 길이가 10⁶ 뉴클레오티드에 도달하고 총 컴퓨팅 성능이 8 × 10¹⁹ FLOPs일 때,매개변수가 2억 1800만 개인 dnaHNet의 계산 비용은 매개변수가 1억 6600만 개인 StripedHyena2에 비해 약 3.89배 감소합니다.2단계 구조는 단일 단계 버전보다 훨씬 더 효율적입니다.

혼란도를 기반으로 한 멱법칙 적합 결과는 다음과 같습니다.StripedHyena2는 동일한 성능 수준을 달성하기 위해 dnaHNet보다 약 3.75배 더 많은 컴퓨팅 파워를 필요로 합니다.또한, dnaHNet의 최적 데이터 매개변수 구성은 기존의 확장 법칙에서 크게 벗어납니다. 동일한 컴퓨팅 성능에서 dnaHNet의 학습 토큰 수는 1400억 개에 달할 수 있는 반면, 비교 모델은 680억 개에 불과하며 아직 수렴하지 못했습니다.

추론 부동소수점 연산(FLOPs)



하위 작업에서,dnaHNet은 샘플이 없는 단백질 변이 효과 예측(MaveDB)과 유전자 필수성 예측(DEG) 모두에서 비교 모델보다 일관되게 우수한 성능을 보입니다.더 나아가, 컴퓨팅 성능이 향상될수록 그 장점은 더욱 확대됩니다. 이는 동적 블록 기반 메커니즘과 계층적 아키텍처가 지역 코딩 구문과 전역 컨텍스트 정보를 더욱 효과적으로 통합하여 생물학적 기능을 특성화하는 능력을 향상시킬 수 있음을 시사합니다.

구조적 해석 가능성과 관련하여, 바실러스 서브틸리스(Bacillus subtilis) 게놈을 2단계 dnaHNet 모델을 사용하여 분석했습니다. 결과는 모델이 생물학적으로 의미 있는 계층적 구조를 자발적으로 학습할 수 있음을 보여주었습니다. 1단계는 코돈에 대한 민감도를 보였으며 코딩 영역에서 삼중염기 패턴을 정확하게 포착할 수 있었습니다. 2단계는 기능적 구조에 더 초점을 맞추어 프로모터, 개시 코돈 및 유전자간 영역이 코딩 영역보다 훨씬 높은 분할 확률을 나타냈습니다.

이 결과는 다음을 나타냅니다.이 모델은 뛰어난 예측 능력을 갖추고 있을 뿐만 아니라, 비지도 학습 조건에서도 유전체의 기능적 구조를 재구성할 수 있습니다.이는 "DNA 문법"을 분석하기 위한 해석 가능한 계산 경로를 제공합니다.

게놈 구조 분석


결론

전반적으로, dnaHNet은 더 이상 서열 분할 방법을 미리 정의하지 않고, 모델이 이를 자동으로 학습하도록 합니다. 실험 결과, 이러한 동적이고 계층적인 모델링은 계산 효율성을 향상시킬 뿐만 아니라 게놈의 다중 스케일 구조를 더 잘 반영하는 것으로 나타났습니다. 장기적으로, 의미 있는 생물학적 단위를 안정적으로 학습할 수 있다면, 게놈에서 공식화하기 어려운 패턴을 밝혀내어 변이 예측, 기능 발견 및 합성 설계 연구에 새로운 길을 열어줄 가능성이 있습니다.

토론토 대학교를 비롯한 연구진은 추론 속도를 3배 향상시키고 유전체 학습에 필요한 계산 비용을 거의 4배 줄이는 dnaHNet을 제안했습니다. | 뉴스 | HyperAI초신경