HyperAIHyperAI

Command Palette

Search for a command to run...

Injection de compétences en raisonnement numérique dans les modèles linguistiques

Mor Geva Ankit Gupta Jonathan Berant

Résumé

Les grands modèles linguistiques pré-entraînés (LM) sont connus pour encapsuler une quantité importante d’informations linguistiques. Toutefois, les compétences de raisonnement de haut niveau, telles que le raisonnement numérique, sont difficiles à acquérir à partir d’un objectif de modélisation linguistique seul. Par conséquent, les modèles existants dédiés au raisonnement numérique reposent sur des architectures spécialisées aux capacités limitées. Dans ce travail, nous démontrons que le raisonnement numérique est adapté à la génération automatique de données, permettant ainsi d’injecter cette compétence dans les modèles pré-entraînés grâce à la génération à grande échelle de données et à un entraînement en mode multi-tâches. Nous montrons qu’un pré-entraînement de notre modèle, GenBERT, sur ces données améliore de façon marquée les performances sur DROP (49,3 → 72,3 F1), atteignant des résultats comparables aux modèles de pointe de taille similaire, tout en utilisant une architecture encodeur-décodage simple et généraliste. En outre, GenBERT généralise efficacement aux jeux de données de problèmes mathématiques à mots, tout en maintenant de hautes performances sur les tâches standards de compréhension de texte. Notre approche fournit une recette générale pour injecter des compétences dans les grands modèles pré-entraînés, dès lors que cette compétence est compatible avec une augmentation automatique des données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Injection de compétences en raisonnement numérique dans les modèles linguistiques | Articles | HyperAI