HyperAIHyperAI
vor 2 Monaten

Verbesserung von Multi-Task Tiefen Neuronalen Netzen durch Wissensdistillierung für die Natürliche Sprachverarbeitung

Xiaodong Liu; Pengcheng He; Weizhu Chen; Jianfeng Gao
Verbesserung von Multi-Task Tiefen Neuronalen Netzen durch Wissensdistillierung für die Natürliche Sprachverarbeitung
Abstract

Dieses Papier untersucht die Anwendung von Wissensverdichtung (knowledge distillation), um ein Mehraufgaben-Tiefes Neuronales Netzwerk (MT-DNN) (Liu et al., 2019) für das Lernen von Textrepräsentationen bei mehreren natürlichsprachlichen Verständnis-Aufgaben zu verbessern. Obwohl Ensemble-Lernen die Leistungsfähigkeit des Modells steigern kann, ist der Betrieb eines Ensembles großer Tiefnerualer Netze wie dem MT-DNN oft unannehmbar teuer. Hier wenden wir die Methode der Wissensverdichtung (Hinton et al., 2015) im Kontext des Mehraufgaben-Lernens an. Für jede Aufgabe trainieren wir ein Ensemble verschiedener MT-DNNs (Lehrer), die jedes einzelne Modell übertrumpfen, und dann trainieren wir ein einzelnes MT-DNN (Schüler) durch Mehraufgaben-Lernen, um Wissen aus diesen Ensemble-Lehrern zu \emph{verdichten}. Wir zeigen, dass das verdichtete MT-DNN in sieben von neun GLUE-Aufgaben deutlich besser abschneidet als das ursprüngliche MT-DNN und den GLUE-Benchmark (einzelnes Modell) auf 83,7 % erhöht (eine Verbesserung um 1,5 Prozentpunkte\footnote{Basierend auf dem GLUE-Leaderboard unter https://gluebenchmark.com/leaderboard vom 1. April 2019.}). Der Code und die vorab trainierten Modelle werden öffentlich zur Verfügung gestellt unter https://github.com/namisan/mt-dnn.

Verbesserung von Multi-Task Tiefen Neuronalen Netzen durch Wissensdistillierung für die Natürliche Sprachverarbeitung | Neueste Forschungsarbeiten | HyperAI