vor 2 Monaten

Die Destillation von taskspezifischem Wissen aus BERT in einfache neuronale Netze

Raphael Tang; Yao Lu; Linqing Liu; Lili Mou; Olga Vechtomova; Jimmy Lin

Abstract

Im Bereich der Literatur zur Verarbeitung natürlicher Sprache werden neuronale Netze zunehmend tiefer und komplexer. Ein aktuelles Beispiel für diesen Trend ist das tiefgreifende Sprachrepräsentationsmodell, zu dem Modelle wie BERT, ELMo und GPT gehören. Diese Entwicklungen haben dazu geführt, dass man die Ansicht vertritt, dass die vorigen Generationen von flacheren neuronalen Netzen für die Sprachverarbeitung veraltet sind. In dieser Arbeit zeigen wir jedoch, dass einfache, leichte neuronale Netze weiterhin wettbewerbsfähig gemacht werden können, ohne architekturale Änderungen, externe Trainingsdaten oder zusätzliche Eingabe-Features vorzunehmen. Wir schlagen vor, Wissen aus BERT, einem neuesten Sprachrepräsentationsmodell, in ein eingleischichtiges BiLSTM sowie dessen siamesisches Pendant für Satzpaaraufgaben zu destillieren. Bei mehreren Datensätzen in den Bereichen Paraphrasierung, natürliche Sprachinferenz und Stimmungsanalyse erreichen wir vergleichbare Ergebnisse mit ELMo, wobei wir etwa 100-mal weniger Parameter und 15-mal weniger Inferenzzeit verwenden.