DNABERT-2: Effizientes Grundmodell und Benchmark für genomische Mehrspeziesanalyse

Das Entschlüsseln der sprachlichen Feinheiten des Genoms ist ein entscheidendes Problem in der Biologie, und vortrainierte Grundlagenmodelle wie DNABERT und Nucleotide Transformer haben in diesem Bereich erhebliche Fortschritte gemacht. Bestehende Arbeiten basieren weitgehend auf k-Mer, festlängigen Permutationen von A, T, C und G, als Token der genomischen Sprache aufgrund ihrer Einfachheit. Wir argumentieren jedoch, dass die durch die k-Mer-Tokenisierung eingeführten Berechnungs- und Stichprobenineffizienzen die Haupthindernisse bei der Entwicklung großer genomischer Grundlagenmodelle darstellen. Wir geben konzeptionelle und empirische Einblicke in die Tokenisierung des Genoms und schlagen darauf aufbauend vor, die k-Mer-Tokenisierung durch Byte Pair Encoding (BPE) zu ersetzen. BPE ist ein statistisches Datenkompressionsverfahren, das Tokens durch iterative Zusammenführung der häufigsten gemeinsam auftretenden genomischen Segmente im Korpus erstellt. Wir zeigen, dass BPE nicht nur die Einschränkungen der k-Mer-Tokenisierung überwindet, sondern auch von der Rechenleistungseffizienz der nicht überlappenden Tokenisierung profitiert. Auf Basis dieser Erkenntnisse stellen wir DNABERT-2 vor, eine verbesserte genomische Grundlage, die einen effizienten Tokenizer anwendet und verschiedene Strategien zur Überwindung von Eingabelängenbeschränkungen sowie zur Reduzierung von Zeit- und Speicheraufwand einsetzt, um die Modellfähigkeit zu steigern. Darüber hinaus identifizieren wir das Fehlen eines umfassenden und standardisierten Benchmarks für das Verständnis des Genoms als weitere wesentliche Hürde für faire vergleichende Analysen. Als Reaktion darauf schlagen wir den Genome Understanding Evaluation (GUE)-Benchmark vor, einen umfassenden multispécies-Genomklassifikationsdatensatz, der 36 unterschiedliche Datensätze über 9 Aufgaben zusammenführt, wobei die Eingabelängen von 70 bis 10000 reichen. Durch umfangreiche Experimente am GUE-Benchmark zeigen wir, dass DNABERT-2 eine vergleichbare Leistung wie das aktuell beste Modell erreicht, dabei aber mit 21-facher weniger Parametern und etwa 92-mal weniger GPU-Zeit beim Vortraining auskommt.