il y a 17 jours

Injection de compétences en raisonnement numérique dans les modèles linguistiques

Mor Geva, Ankit Gupta, Jonathan Berant

Résumé

Les grands modèles linguistiques pré-entraînés (LM) sont connus pour encapsuler une quantité importante d’informations linguistiques. Toutefois, les compétences de raisonnement de haut niveau, telles que le raisonnement numérique, sont difficiles à acquérir à partir d’un objectif de modélisation linguistique seul. Par conséquent, les modèles existants dédiés au raisonnement numérique reposent sur des architectures spécialisées aux capacités limitées. Dans ce travail, nous démontrons que le raisonnement numérique est adapté à la génération automatique de données, permettant ainsi d’injecter cette compétence dans les modèles pré-entraînés grâce à la génération à grande échelle de données et à un entraînement en mode multi-tâches. Nous montrons qu’un pré-entraînement de notre modèle, GenBERT, sur ces données améliore de façon marquée les performances sur DROP (49,3 → 72,3 F1), atteignant des résultats comparables aux modèles de pointe de taille similaire, tout en utilisant une architecture encodeur-décodage simple et généraliste. En outre, GenBERT généralise efficacement aux jeux de données de problèmes mathématiques à mots, tout en maintenant de hautes performances sur les tâches standards de compréhension de texte. Notre approche fournit une recette générale pour injecter des compétences dans les grands modèles pré-entraînés, dès lors que cette compétence est compatible avec une augmentation automatique des données.