La justification par incitation améliore l'Adversarial NLI. Est-ce vrai ? {Oui}, c'est {vrai} car {elle affaiblit les indices superficiels}.

Les prompts d'explication exigent des modèles linguistiques non seulement d'attribuer une étiquette spécifique à une entrée donnée — par exemple, « vrai », « entailment » ou « contradiction » dans le cadre de l'inférence linguistique naturelle — mais aussi de générer une explication librement formulée en texte libre qui justifie cette étiquette. Par exemple : « Cela correspond à l'étiquette car [explication] ». Bien que ce type de prompt ait été initialement introduit dans le but d'améliorer l'interprétabilité des modèles, nous montrons ici qu'il améliore également la robustesse face aux perturbations adverses sur les benchmarks d'inférence linguistique naturelle. Par rapport à la simple prédiction d'étiquettes, l'usage de prompts d'explication conduit de manière cohérente à de meilleures performances sur les benchmarks adverses, dépassant l'état de l'art sur les jeux de données Adversarial Natural Language Inference, Counterfactually-Augmented Natural Language Inference et SNLI-Hard. Nous argumentons que cette augmentation de la robustesse s'explique par le fait que la demande d'explication affaiblit les indices superficiels. En effet, des tokens isolés qui sont fortement prédictifs de la bonne réponse dans le cadre de la prédiction d'étiquettes seule deviennent peu informatifs lorsque le modèle doit également produire une explication.