HyperAIHyperAI
il y a 17 jours

Génération de données pour atténuer les corrélations fallacieuses dans les jeux de données d'inférence sémantique du langage naturel

Yuxiang Wu, Matt Gardner, Pontus Stenetorp, Pradeep Dasigi
Génération de données pour atténuer les corrélations fallacieuses dans les jeux de données d'inférence sémantique du langage naturel
Résumé

Les modèles de traitement du langage naturel exploitent fréquemment des corrélations artificielles entre des caractéristiques indépendantes de la tâche et les étiquettes dans les jeux de données afin de bien performer uniquement sur les distributions sur lesquelles ils ont été entraînés, sans généraliser efficacement à des distributions de tâches différentes. Nous proposons de résoudre ce problème en générant une version débiaisée d’un jeu de données, qui peut ensuite être utilisée pour entraîner un modèle débiaisé, off-the-shelf, en remplaçant simplement ses données d’entraînement. Notre approche repose sur deux composantes : 1) une méthode pour entraîner des générateurs de données afin de produire des échantillons de haute qualité, cohérents avec les étiquettes ; et 2) un mécanisme de filtrage pour éliminer les points de données contribuant à des corrélations artificielles, mesurées à l’aide de statistiques z. Nous avons généré des versions débiaisées des jeux de données SNLI et MNLI, et nous avons évalué nos modèles sur une large série de jeux de test débiaisés, hors distribution et adverses. Les résultats montrent que les modèles entraînés sur nos jeux de données débiaisés généralisent mieux que ceux entraînés sur les jeux originaux dans tous les contextes. Sur la majorité des jeux de données, notre méthode dépasse ou égale les stratégies de débaisage les plus avancées précédemment publiées. Lorsqu’elle est combinée à une technique orthogonale, celle du product-of-experts, elle permet une amélioration supplémentaire et surpasse les meilleurs résultats antérieurs sur les versions difficiles de SNLI et MNLI.