vor 17 Tagen

Selbsterklärende Strukturen verbessern NLP-Modelle

Zijun Sun, Chun Fan, Qinghong Han, Xiaofei Sun, Yuxian Meng, Fei Wu, Jiwei Li

Abstract

Bekannte Ansätze zur Erklärung von Deep-Learning-Modellen im Bereich der natürlichen Sprachverarbeitung (NLP) leiden in der Regel unter zwei gravierenden Nachteilen: (1) Das Hauptmodell und das Erklärungsmodell sind entkoppelt: Zur Interpretation eines bestehenden Modells wird ein zusätzliches Untersuchungs- oder Ersatzmodell eingesetzt, wodurch die vorhandenen Erklärungstools nicht selbsterklärend sind; (2) Das Untersuchungsmodell kann Vorhersagen eines Modells lediglich auf der Ebene niedrigstufiger Merkmale erklären, indem es Saliency-Scores für einzelne Wörter berechnet, ist jedoch ungeschickt bei der Erklärung höherstufiger Texteinheiten wie Phrasen, Sätze oder Absätze. Um diese beiden Probleme anzugehen, schlagen wir in diesem Artikel einen einfachen, jedoch allgemeinen und effektiven selbsterklärenden Rahmen für Deep-Learning-Modelle im Bereich der NLP vor. Der zentrale Aspekt des vorgeschlagenen Ansatzes besteht darin, eine zusätzliche Schicht – die sogenannte Erklärungsschicht – oberhalb jedes bestehenden NLP-Modells zu platzieren. Diese Schicht aggregiert Informationen für jeden Textabschnitt (Textspan), der dann einem spezifischen Gewicht zugeordnet wird; deren gewichtete Kombination wird anschließend an die Softmax-Funktion zur endgültigen Vorhersage weitergeleitet. Das vorgeschlagene Modell weist folgende Vorteile auf: (1) Die Gewichte der Textabschnitte machen das Modell selbsterklärend und erfordern kein zusätzliches Untersuchungsmodell zur Interpretation; (2) Der Ansatz ist allgemein anwendbar und kann problemlos auf beliebige bestehende tiefgreifende Lernarchitekturen im Bereich der NLP angepasst werden; (3) Die mit jedem Textabschnitt verbundenen Gewichte liefern direkte Maße für die Bedeutung höherstufiger Texteinheiten wie Phrasen oder Sätze. Erstmals zeigen wir, dass Erklärbarkeit nicht mit Leistungseinbußen einhergeht: Ein neuronales Modell, das selbsterklärende Merkmale nutzt, erreicht eine bessere Leistung als seine Entsprechung ohne selbsterklärende Eigenschaften und erzielt eine neue SOTA-Leistung von 59,1 auf SST-5 sowie eine neue SOTA-Leistung von 92,3 auf SNLI.