HyperAIHyperAI

Command Palette

Search for a command to run...

Déverrouillage de la généralisation compositionnelle dans les modèles pré-entraînés à l’aide de représentations intermédiaires

Jonathan Herzig Peter Shaw Ming-Wei Chang Kelvin Guu Panupong Pasupat Yuan Zhang

Résumé

Les modèles de séquence à séquence (seq2seq) sont largement utilisés dans le traitement sémantique, mais ils se révèlent souvent insuffisants face à la généralisation compositionnelle hors distribution. Bien que des architectures de modèles spécialisées et des pré-entraînements aient été proposés pour atténuer ce problème, les premières entraînent souvent une perte de généralité, tandis que les seconds ne montrent qu’un succès limité. Dans ce travail, nous étudions l’impact des représentations intermédiaires sur la généralisation compositionnelle des modèles seq2seq pré-entraînés, sans modifier en aucune manière l’architecture du modèle, et identifions les aspects clés pour concevoir des représentations efficaces. Plutôt que d’entraîner directement la correspondance entre le langage naturel et une forme exécutable, nous visons une représentation intermédiaire réversible ou à perte, qui présente une correspondance structurelle plus forte avec le langage naturel. La combinaison de nos représentations intermédiaires proposées avec des modèles pré-entraînés s’avère étonnamment efficace : les meilleures configurations atteignent un nouveau record sur CFQ (+14,8 points de précision) et sur les splits de modèles de trois jeux de données text-to-SQL (+15,0 à +19,4 points de précision). Ce travail met en évidence que les représentations intermédiaires constituent un degré de liberté important, souvent négligé, pour améliorer les capacités de généralisation compositionnelle des modèles seq2seq pré-entraînés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp