2달 전

DNABERT-2: 다중 종 유전체에 대한 효율적인 기초 모델 및 벤치마크

Zhihan Zhou; Yanrong Ji; Weijian Li; Pratik Dutta; Ramana Davuluri; Han Liu
DNABERT-2: 다중 종 유전체에 대한 효율적인 기초 모델 및 벤치마크
초록

유전체 언어의 언어학적 복잡성을 해독하는 것은 생물학에서 중요한 문제이며, DNABERT와 Nucleotide Transformer와 같은 사전 훈련된 기초 모델들이 이 분야에서 상당한 진전을 이루었습니다. 기존 연구들은 주로 k-mer, 즉 A, T, C, G의 고정 길이 순열을 유전체 언어의 토큰으로 사용해 왔는데, 이는 그 간단함 때문입니다. 그러나 우리는 k-mer 토큰화가 대형 유전체 기초 모델 개발에 있어 계산 효율성과 샘플 효율성 부족을 주요 장애물로 만들고 있다고 주장합니다. 우리는 유전체 토큰화에 대한 개념적 및 경험적 통찰력을 제공하며, 이를 바탕으로 k-mer 토큰화를 Byte Pair Encoding (BPE)로 대체할 것을 제안합니다. BPE는 통계 기반 데이터 압축 알고리즘으로, 가장 자주 함께 등장하는 유전체 세그먼트를 반복적으로 합쳐서 토큰을 생성합니다. 우리는 BPE가 k-mer 토큰화의 한계를 극복할 뿐만 아니라 중복되지 않는 토큰화의 계산 효율성도 활용할 수 있음을 보여줍니다.이러한 통찰력에 입각하여, 우리는 DNABERT-2라는 개선된 유전체 기초 모델을 소개합니다. 이 모델은 효율적인 토크나이저를 적용하고 여러 전략을 사용하여 입력 길이 제약을 극복하고 시간 및 메모리 소비를 줄이며 모델 성능을 강화합니다. 또한, 우리는 유전체 이해를 위한 포괄적이고 표준화된 벤치마크의 부재가 공정한 비교 분석에 또 다른 중요한 장애물임을 확인하였습니다. 이에 대해 우리는 Genome Understanding Evaluation (GUE)를 제안하는데, 이는 9개의 작업에 걸쳐 36개의 독특한 데이터셋을 결합한 다종류 유전체 분류 데이터셋입니다. 입력 길이는 70에서 10000까지 다양합니다.GUE 벤치마크를 이용한 포괄적인 실험들을 통해 DNABERT-2가 최신 모델보다 21배 적은 매개변수와 약 92배 적은 GPU 시간으로 비슷한 성능을 달성함을 입증하였습니다.

DNABERT-2: 다중 종 유전체에 대한 효율적인 기초 모델 및 벤치마크 | 최신 연구 논문 | HyperAI초신경