DNABERT-2: 多種生物ゲノムのための効率的な基盤モデルとベンチマーク

ゲノムの言語的複雑性を解読することは生物学における重要な課題であり、DNABERTやNucleotide Transformerなどの事前学習済み基盤モデルはこの分野で大きな進歩を遂げています。既存の研究では、その単純さから、A、T、C、Gの固定長の並びであるk-merがゲノム言語のトークンとして主に使用されてきました。しかし、我々はk-merトークン化によって導入される計算効率とサンプル効率の低さが、大規模なゲノム基盤モデルの開発における主要な障壁であると主張します。本稿では、ゲノムトークン化に関する概念的および実証的な洞察を提供し、その上で統計に基づくデータ圧縮アルゴリズムであるByte Pair Encoding(BPE)を用いてk-merトークン化に代わる方法を提案します。BPEは頻繁に共起するゲノム断片を反復的に結合することでトークンを構築します。我々はBPEがk-merトークン化の制限を克服するだけでなく、非重複トークン化による計算効率も享受できることが示されました。これらの洞察に基づき、効率的なトークナイザーを採用し、入力長制約の克服、時間とメモリ消費量の削減、モデル能力の向上を目指す改良型ゲノム基盤モデルDNABERT-2を紹介します。さらに、包括的かつ標準化されたゲノム理解ベンチマークの不在が公正な比較分析における別の重大な障壁であることを指摘します。これに対応して、我々はGenome Understanding Evaluation(GUE)という包括的な多種類ゲノム分類データセットを提案します。このデータセットは9つのタスクにわたる36個の異なるデータセットを統合したもので、入力長は70から10000まで幅広くカバーしています。GUEベンチマークを使用した包括的な実験を通じて、DNABERT-2が最新モデルと同等の性能を持ちながら21倍少ないパラメータ数と約92倍少ないGPU時間で事前学習できることが示されました。