HyperAIHyperAI

Command Palette

Search for a command to run...

DNABERT-2 : Modèle de base efficace et benchmark pour les génomes multi-espèces

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

Résumé

Décrypter les complexités linguistiques du génome est un problème crucial en biologie, et des modèles fondamentaux pré-entraînés tels que DNABERT et Nucleotide Transformer ont réalisé des progrès significatifs dans ce domaine. Les travaux existants se sont principalement appuyés sur les k-mers, des permutations de longueur fixe des lettres A, T, C et G, en raison de leur simplicité. Cependant, nous soutenons que les inefficacités computationnelles et d'échantillonnage introduites par la tokenisation k-mer constituent des obstacles majeurs au développement de grands modèles fondamentaux du génome. Nous fournissons des éclairages conceptuels et empiriques sur la tokenisation du génome, sur la base desquels nous proposons de remplacer la tokenisation k-mer par l'Encodage par Paires d'Octets (BPE), un algorithme de compression de données basé sur les statistiques qui construit des tokens en fusionnant itérativement les segments de génome les plus fréquemment co-occurrents dans le corpus.Nous démontrons que BPE non seulement surmonte les limitations de la tokenisation k-mer mais bénéficie également de l'efficacité computationnelle de la tokenisation non chevauchante. Sur cette base, nous présentons DNABERT-2, une version améliorée du modèle fondamental du génome qui adapte un tokenizer efficace et utilise plusieurs stratégies pour surmonter les contraintes de longueur d'entrée, réduire le temps et la consommation mémoire, et améliorer les capacités du modèle. De plus, nous identifions l'absence d'un benchmark complet et standardisé pour la compréhension du génome comme un autre obstacle majeur à une analyse comparative équitable. En réponse à cela, nous proposons l'évaluation de Compréhension du Génome (GUE), un ensemble de données polyvalent pour la classification multi-espèces qui combine 36 jeux de données distincts couvrant 9 tâches différentes, avec des longueurs d'entrée variant de 70 à 10000.Grâce à des expériences exhaustives sur le benchmark GUE, nous montrons que DNABERT-2 atteint une performance comparable aux modèles d'avant-garde actuels avec 21 fois moins de paramètres et environ 92 fois moins de temps GPU lors de la pré-entraîne.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp