HyperAIHyperAI

Command Palette

Search for a command to run...

Die Destillation von taskspezifischem Wissen aus BERT in einfache neuronale Netze

Raphael Tang∗, Yao Lu∗, Linqing Liu∗, Lili Mou, Olga Vechtomova, and Jimmy Lin

Zusammenfassung

Im Bereich der Literatur zur Verarbeitung natürlicher Sprache werden neuronale Netze zunehmend tiefer und komplexer. Ein aktuelles Beispiel für diesen Trend ist das tiefgreifende Sprachrepräsentationsmodell, zu dem Modelle wie BERT, ELMo und GPT gehören. Diese Entwicklungen haben dazu geführt, dass man die Ansicht vertritt, dass die vorigen Generationen von flacheren neuronalen Netzen für die Sprachverarbeitung veraltet sind. In dieser Arbeit zeigen wir jedoch, dass einfache, leichte neuronale Netze weiterhin wettbewerbsfähig gemacht werden können, ohne architekturale Änderungen, externe Trainingsdaten oder zusätzliche Eingabe-Features vorzunehmen. Wir schlagen vor, Wissen aus BERT, einem neuesten Sprachrepräsentationsmodell, in ein eingleischichtiges BiLSTM sowie dessen siamesisches Pendant für Satzpaaraufgaben zu destillieren. Bei mehreren Datensätzen in den Bereichen Paraphrasierung, natürliche Sprachinferenz und Stimmungsanalyse erreichen wir vergleichbare Ergebnisse mit ELMo, wobei wir etwa 100-mal weniger Parameter und 15-mal weniger Inferenzzeit verwenden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp