il y a 8 mois

Résumé

Décrypter les complexités linguistiques du génome est un problème crucial en biologie, et des modèles fondamentaux pré-entraînés tels que DNABERT et Nucleotide Transformer ont réalisé des progrès significatifs dans ce domaine. Les travaux existants se sont principalement appuyés sur les k-mers, des permutations de longueur fixe des lettres A, T, C et G, en raison de leur simplicité. Cependant, nous soutenons que les inefficacités computationnelles et d'échantillonnage introduites par la tokenisation k-mer constituent des obstacles majeurs au développement de grands modèles fondamentaux du génome. Nous fournissons des éclairages conceptuels et empiriques sur la tokenisation du génome, sur la base desquels nous proposons de remplacer la tokenisation k-mer par l'Encodage par Paires d'Octets (BPE), un algorithme de compression de données basé sur les statistiques qui construit des tokens en fusionnant itérativement les segments de génome les plus fréquemment co-occurrents dans le corpus.Nous démontrons que BPE non seulement surmonte les limitations de la tokenisation k-mer mais bénéficie également de l'efficacité computationnelle de la tokenisation non chevauchante. Sur cette base, nous présentons DNABERT-2, une version améliorée du modèle fondamental du génome qui adapte un tokenizer efficace et utilise plusieurs stratégies pour surmonter les contraintes de longueur d'entrée, réduire le temps et la consommation mémoire, et améliorer les capacités du modèle. De plus, nous identifions l'absence d'un benchmark complet et standardisé pour la compréhension du génome comme un autre obstacle majeur à une analyse comparative équitable. En réponse à cela, nous proposons l'évaluation de Compréhension du Génome (GUE), un ensemble de données polyvalent pour la classification multi-espèces qui combine 36 jeux de données distincts couvrant 9 tâches différentes, avec des longueurs d'entrée variant de 70 à 10000.Grâce à des expériences exhaustives sur le benchmark GUE, nous montrons que DNABERT-2 atteint une performance comparable aux modèles d'avant-garde actuels avec 21 fois moins de paramètres et environ 92 fois moins de temps GPU lors de la pré-entraîne.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Transformer

Traitement Du Langage Naturel

Jeu De Données

Infrastructure D'ia

Approche/Framework

Traitement Du Langage Naturel

Tâche

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Transformer

Traitement Du Langage Naturel

Jeu De Données

Infrastructure D'ia

Approche/Framework

Traitement Du Langage Naturel

Tâche

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

DNABERT-2 : Modèle de base efficace et benchmark pour les génomes multi-espèces

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DNABERT-2 : Modèle de base efficace et benchmark pour les génomes multi-espèces

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DNABERT-2 : Modèle de base efficace et benchmark pour les génomes multi-espèces

Zhihan Zhou† Yanrong Ji‡ Weijian Li† Pratik Dutta† Ramana V Davuluri‡ Han Liu†

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters