Command Palette
Search for a command to run...
DNABERT-2 : Modèle de base efficace et benchmark pour les génomes multi-espèces
DNABERT-2 : Modèle de base efficace et benchmark pour les génomes multi-espèces
Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†
Résumé
Décrypter les complexités linguistiques du génome est un problème crucial en biologie, et des modèles fondamentaux pré-entraînés tels que DNABERT et Nucleotide Transformer ont réalisé des progrès significatifs dans ce domaine. Les travaux existants se sont principalement appuyés sur les k-mers, des permutations de longueur fixe des lettres A, T, C et G, en raison de leur simplicité. Cependant, nous soutenons que les inefficacités computationnelles et d'échantillonnage introduites par la tokenisation k-mer constituent des obstacles majeurs au développement de grands modèles fondamentaux du génome. Nous fournissons des éclairages conceptuels et empiriques sur la tokenisation du génome, sur la base desquels nous proposons de remplacer la tokenisation k-mer par l'Encodage par Paires d'Octets (BPE), un algorithme de compression de données basé sur les statistiques qui construit des tokens en fusionnant itérativement les segments de génome les plus fréquemment co-occurrents dans le corpus.Nous démontrons que BPE non seulement surmonte les limitations de la tokenisation k-mer mais bénéficie également de l'efficacité computationnelle de la tokenisation non chevauchante. Sur cette base, nous présentons DNABERT-2, une version améliorée du modèle fondamental du génome qui adapte un tokenizer efficace et utilise plusieurs stratégies pour surmonter les contraintes de longueur d'entrée, réduire le temps et la consommation mémoire, et améliorer les capacités du modèle. De plus, nous identifions l'absence d'un benchmark complet et standardisé pour la compréhension du génome comme un autre obstacle majeur à une analyse comparative équitable. En réponse à cela, nous proposons l'évaluation de Compréhension du Génome (GUE), un ensemble de données polyvalent pour la classification multi-espèces qui combine 36 jeux de données distincts couvrant 9 tâches différentes, avec des longueurs d'entrée variant de 70 à 10000.Grâce à des expériences exhaustives sur le benchmark GUE, nous montrons que DNABERT-2 atteint une performance comparable aux modèles d'avant-garde actuels avec 21 fois moins de paramètres et environ 92 fois moins de temps GPU lors de la pré-entraîne.