il y a 17 jours

Déverrouillage de la généralisation compositionnelle dans les modèles pré-entraînés à l’aide de représentations intermédiaires

Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong Pasupat, Yuan Zhang

Résumé

Les modèles de séquence à séquence (seq2seq) sont largement utilisés dans le traitement sémantique, mais ils se révèlent souvent insuffisants face à la généralisation compositionnelle hors distribution. Bien que des architectures de modèles spécialisées et des pré-entraînements aient été proposés pour atténuer ce problème, les premières entraînent souvent une perte de généralité, tandis que les seconds ne montrent qu’un succès limité. Dans ce travail, nous étudions l’impact des représentations intermédiaires sur la généralisation compositionnelle des modèles seq2seq pré-entraînés, sans modifier en aucune manière l’architecture du modèle, et identifions les aspects clés pour concevoir des représentations efficaces. Plutôt que d’entraîner directement la correspondance entre le langage naturel et une forme exécutable, nous visons une représentation intermédiaire réversible ou à perte, qui présente une correspondance structurelle plus forte avec le langage naturel. La combinaison de nos représentations intermédiaires proposées avec des modèles pré-entraînés s’avère étonnamment efficace : les meilleures configurations atteignent un nouveau record sur CFQ (+14,8 points de précision) et sur les splits de modèles de trois jeux de données text-to-SQL (+15,0 à +19,4 points de précision). Ce travail met en évidence que les représentations intermédiaires constituent un degré de liberté important, souvent négligé, pour améliorer les capacités de généralisation compositionnelle des modèles seq2seq pré-entraînés.