8 个月前

摘要

解读基因组的语言复杂性是生物学中的一个关键问题，而预训练的基础模型如DNABERT和Nucleotide Transformer在这一领域取得了显著进展。现有的研究大多依赖于k-mer（A、T、C、G的固定长度排列）作为基因组语言的标记单位，因为其简单易用。然而，我们认为k-mer分词引入的计算和样本效率低下是开发大型基因组基础模型的主要障碍。我们从概念和实证两个方面对基因组分词进行了深入探讨，并在此基础上提出用字节对编码（Byte Pair Encoding, BPE）替代k-mer分词。BPE是一种基于统计的数据压缩算法，通过迭代合并语料库中最频繁共现的基因组片段来构建标记单位。我们证明了BPE不仅克服了k-mer分词的局限性，还受益于非重叠分词带来的计算效率提升。基于这些见解，我们推出了DNABERT-2，这是一种改进的基因组基础模型，采用了高效的分词器，并运用多种策略克服输入长度限制、减少时间和内存开销以及增强模型能力。此外，我们发现缺乏全面且标准化的基因组理解基准测试是进行公平比较分析的另一个重要障碍。为此，我们提出了基因组理解评估（Genome Understanding Evaluation, GUE），这是一个综合性的多物种基因组分类数据集，整合了9个任务中的36个不同数据集，输入长度范围从70到10000。通过对GUE基准测试进行全面实验，我们展示了DNABERT-2在参数量减少21倍的情况下，预训练所需的GPU时间减少了约92倍，同时仍能实现与最先进模型相当的性能。

源 PDF