Verbesserung des neuronalen Sprachmodells durch adversariales Training

Kürzlich wurden bei der Sprachmodellierung durch den Einsatz tiefer neuronaler Netze erhebliche Fortschritte gemacht. In der Praxis haben jedoch große neuronale Sprachmodelle sich als anfällig für das Überanpassen erwiesen. In dieser Arbeit stellen wir ein einfaches, aber hoch effektives adversariales Trainingsverfahren zur Regularisierung von neuronalen Sprachmodellen vor. Das Konzept besteht darin, während des Trainings des Modells adversariales Rauschen in die Ausgabeeinbettungsschicht einzuführen. Wir zeigen, dass das optimale adversarische Rauschen eine einfache geschlossene Lösung aufweist, was es uns ermöglicht, einen einfachen und zeit-effizienten Algorithmus zu entwickeln. Theoretisch beweisen wir, dass unser adversarischer Mechanismus die Vielfalt der Einbettungsvektoren effektiv fördert und somit zur Steigerung der Robustheit der Modelle beiträgt. Empirisch zeigen wir, dass unsere Methode die besten bisher bekannten Ergebnisse für einzelne Modelle bei der Sprachmodellierung auf dem Penn Treebank (PTB) und Wikitext-2 verbessert und Testperplexitätswerte von 46,01 und 38,07 erreicht. Bei der Anwendung auf maschinelle Übersetzung verbessert unsere Methode verschiedene transformer-basierte Übersetzungsgrundlagen in Bezug auf die BLEU-Werte bei den Aufgaben WMT14 Englisch-Deutsch und IWSLT14 Deutsch-Englisch.