HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung von Multi-Task Tiefen Neuronalen Netzen durch Wissensdistillierung für die Natürliche Sprachverarbeitung

Xiaodong Liu Pengcheng He Weizhu Chen Jianfeng Gao

Zusammenfassung

Dieses Papier untersucht die Anwendung von Wissensverdichtung (knowledge distillation), um ein Mehraufgaben-Tiefes Neuronales Netzwerk (MT-DNN) (Liu et al., 2019) für das Lernen von Textrepräsentationen bei mehreren natürlichsprachlichen Verständnis-Aufgaben zu verbessern. Obwohl Ensemble-Lernen die Leistungsfähigkeit des Modells steigern kann, ist der Betrieb eines Ensembles großer Tiefnerualer Netze wie dem MT-DNN oft unannehmbar teuer. Hier wenden wir die Methode der Wissensverdichtung (Hinton et al., 2015) im Kontext des Mehraufgaben-Lernens an. Für jede Aufgabe trainieren wir ein Ensemble verschiedener MT-DNNs (Lehrer), die jedes einzelne Modell übertrumpfen, und dann trainieren wir ein einzelnes MT-DNN (Schüler) durch Mehraufgaben-Lernen, um Wissen aus diesen Ensemble-Lehrern zu \emph{verdichten}. Wir zeigen, dass das verdichtete MT-DNN in sieben von neun GLUE-Aufgaben deutlich besser abschneidet als das ursprüngliche MT-DNN und den GLUE-Benchmark (einzelnes Modell) auf 83,7 % erhöht (eine Verbesserung um 1,5 Prozentpunkte\footnote{Basierend auf dem GLUE-Leaderboard unter https://gluebenchmark.com/leaderboard vom 1. April 2019.}). Der Code und die vorab trainierten Modelle werden öffentlich zur Verfügung gestellt unter https://github.com/namisan/mt-dnn.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp