il y a 17 jours

Ne prenez pas la voie facile : des méthodes fondées sur l'ensemble pour éviter les biais connus des jeux de données

Christopher Clark, Mark Yatskar, Luke Zettlemoyer

Résumé

Les modèles d’avant-garde utilisent souvent des motifs superficiels présents dans les données, qui ne se généralisent pas efficacement aux situations hors domaine ou adverses. Par exemple, les modèles de déduction textuelle apprennent fréquemment que des mots-clés spécifiques impliquent nécessairement une entailment, indépendamment du contexte, tandis que les modèles de réponse à des questions visuelles apprennent à prédire des réponses prototypiques sans tenir compte des éléments présents dans l’image. Dans cet article, nous montrons qu’en disposant d’une connaissance a priori de ces biais, il est possible d’entraîner un modèle plus robuste aux décalages de domaine. Notre méthode repose sur deux étapes : (1) entraîner un modèle naïf qui effectue des prédictions exclusivement en se basant sur les biais présents dans les données, puis (2) entraîner un modèle robuste en tant qu’élément d’un ensemble combinant ce modèle naïf, afin de l’inciter à se concentrer sur d’autres motifs présents dans les données, susceptibles de mieux se généraliser. Des expériences menées sur cinq jeux de données comportant des ensembles de test hors domaine montrent une amélioration significative de la robustesse dans toutes les configurations, notamment une augmentation de 12 points sur un jeu de données de réponse à questions visuelles avec des priorités changeantes, et une amélioration de 9 points sur un ensemble de test adversarial de réponse à questions.