vor einem Monat

Tiefe residuale Ausgabeschichten für neuronale Sprachgenerierung

Nikolaos Pappas; James Henderson

Abstract

Viele Aufgaben, darunter die Sprachgenerierung, profitieren von der Lernfahigkeit der Struktur des Ausgaberaums, insbesondere wenn der Raum der Ausgabelabel groß ist und die Daten dünn gesät sind. State-of-the-art neuronale Sprachmodelle erfassen die Struktur des Ausgaberaums indirekt in ihren Klassifikergewichten, da sie keine Parameterfreigabe über die Ausgabelabel hinweg haben. Das Lernen geteilter Abbildungen für Ausgabelabel hilft, aber bestehende Methoden haben eine begrenzte Ausdrucksfähigkeit und sind anfällig für Overfitting. In dieser Arbeit untersuchen wir die Nützlichkeit leistungsfähigerer geteilter Abbildungen für Ausgabelabel und schlagen eine tiefe residuale Ausgabeabbildung mit Dropout zwischen den Schichten vor, um die Struktur des Ausgaberaums besser zu erfassen und Overfitting zu vermeiden. Evaluationen bei drei Sprachgenerierungsaufgaben zeigen, dass unsere Ausgabeabbildung den Stand der Technik in rekurrenten und selbst-achtenden Architekturen erreichen oder verbessern kann und darauf hindeuten, dass der Klassifikator nicht unbedingt hochrangig sein muss, um natürliche Sprache besser zu modellieren, wenn er besser in der Lage ist, die Struktur des Ausgaberaums zu erfassen.