Premier entraînement pour générer, puis génération pour entraîner : UnitedSynT5 pour la NLI à faible exemple

Les tâches de déduction linguistique naturelle (Natural Language Inference, NLI) consistent à identifier la relation entre des paires de phrases, généralement classifiées en implication, contradiction ou neutralité. Bien que le modèle de pointe actuel (SOTA), l’Entailment Few-Shot Learning (EFL), atteigne une précision de 93,1 % sur le jeu de données Stanford Natural Language Inference (SNLI), les progrès ultérieurs sont freinés par les limites inhérentes à ce jeu de données. Pour remédier à cela, nous proposons une approche novatrice reposant sur l’augmentation de données synthétiques afin d’améliorer la diversité et la complexité du jeu de données. Nous introduisons UnitedSynT5, une extension avancée de EFL, qui utilise un générateur basé sur T5 pour synthétiser de nouvelles paires prémisse-hypothèse, soigneusement nettoyées et intégrées aux données d’entraînement. Ces exemples enrichis sont traités dans le cadre de l’architecture EFL, avec des étiquettes intégrées directement dans les hypothèses afin d’assurer une cohérence. Nous entraînons un modèle GTR-T5-XL sur cet ensemble étendu, atteignant ainsi un nouveau seuil de performance : 94,7 % de précision sur SNLI, 94,0 % sur E-SNLI et 92,6 % sur MultiNLI, surpassant ainsi les modèles SOTA précédents. Cette recherche démontre le potentiel de l’augmentation de données synthétiques pour améliorer les modèles de NLI, ouvrant ainsi une voie prometteuse pour des avancées futures dans les tâches de compréhension du langage naturel.