Prompting für Erklärungen verbessert die adversarische NLI. Ist dies wahr? {Ja}, es ist {wahr}, weil {es oberflächliche Hinweise schwächt}.

Erklärungs-Prompts verlangen von Sprachmodellen nicht nur, einer gegebenen Eingabe eine bestimmte Bezeichnung zuzuweisen – beispielsweise „wahr“, „Implikation“ oder „Widerspruch“ im Kontext der natürlichen Sprachinferenz – sondern auch eine freitextbasierte Erklärung zu generieren, die diese Bezeichnung stützt. Ein Beispiel hierfür lautet: „Dies ist die Bezeichnung, weil Erklärung.“ Während dieser Ansatz ursprünglich dazu entwickelt wurde, die Interpretierbarkeit von Modellen zu verbessern, zeigen wir hier, dass Erklärungs-Prompts zudem die Robustheit gegenüber adversarialen Störungen in natürlichen Sprachinferenzbenchmarks erhöhen. Im Vergleich zur reinen Label-Prompts führt die Erklärungs-Prompts konsistent zu besserer Leistung auf adversarialen Benchmarks und übertrifft die bisher beste Zustandsbeschreibung auf den Datensätzen Adversarial Natural Language Inference, Counterfactually-Augmented Natural Language Inference sowie SNLI-Hard. Wir argumentieren, dass die gesteigerte Robustheit darauf zurückzuführen ist, dass die Anforderung zur Erklärungsgenerierung oberflächliche Hinweise abschwächt. Insbesondere werden einzelne Tokens, die im Fall der reinen Label-Präzision stark prädiktiv für die korrekte Antwort sind, uninformell, wenn das Modell zusätzlich eine Erklärung generieren muss.