il y a 7 jours

Amélioration de la détection de paraphrase grâce à la tâche de paraphrase adverse

Animesh Nighojkar, John Licato

Résumé

Si deux énoncés ont le même sens, il s’ensuit qu’ils doivent être équivalents en termes de propriétés inférentielles, c’est-à-dire que chacun doit impliquer textuellement l’autre. Toutefois, de nombreux jeux de données de paraphrase actuellement utilisés à grande échelle reposent sur une notion de paraphrase fondée sur le chevauchement lexical et la syntaxe. Poussons-nous à enseigner à ces jeux de données à identifier les paraphrases en s’appuyant sur les propriétés inférentielles des énoncés, plutôt que de s’appuyer excessivement sur les similitudes lexicales et syntaxiques entre les paires de phrases ? Nous appliquons ici un paradigme adversarial à cette question et introduisons une nouvelle méthode adversariale de création de jeux de données pour la détection de paraphrases : la Tâche de Paraphrase Adversariale (APT), qui consiste à demander aux participants de générer des paraphrases sémantiquement équivalentes (au sens d’implication mutuelle) mais lexicalement et syntaxiquement distinctes. Ces paires de phrases peuvent ensuite être utilisées à la fois pour tester des modèles de détection de paraphrases (qui obtiennent alors une précision à peine aléatoire) et pour améliorer leur performance. Pour accélérer la génération de données, nous explorons l’automatisation de l’APT à l’aide de T5, et montrons que le jeu de données ainsi produit améliore également la précision. Nous discutons les implications de ces résultats pour la détection de paraphrases et mettons publiquement à disposition notre jeu de données dans l’espoir de rendre les modèles de détection de l’équivalence sémantique au niveau de la phrase plus performants.