Neuronale Sprachmodellierung durch gemeinsames Lernen von Syntax und Lexikon

Wir schlagen ein neuronales Sprachmodell vor, das in der Lage ist, syntaktische Strukturen ohne Aufsicht zu induzieren. Das Modell nutzt die Strukturinformationen, um bessere semantische Repräsentationen und ein besseres Sprachmodell zu erzeugen. Standard-Rekurrentneuronale Netze sind durch ihre Struktur begrenzt und können syntaktische Informationen nicht effizient nutzen. Andererseits benötigen baumartige rekursive Netze in der Regel zusätzliche strukturelle Aufsicht, was den Einsatz menschlicher Experten zur Annotation erfordert. In dieser Arbeit stellen wir ein neues neuronales Sprachmodell vor, das Parsing-Reading-Predict Networks (PRPN) genannt wird. Dieses Modell kann gleichzeitig syntaktische Strukturen aus unannotierten Sätzen induzieren und die abgeleitete Struktur nutzen, um ein besseres Sprachmodell zu lernen. In unserem Modell kann der Gradient direkt vom Verlust des Sprachmodells in das neurale Parsing-Netz zurückpropagiert werden. Experimente zeigen, dass das vorgeschlagene Modell die zugrunde liegende syntaktische Struktur entdecken kann und auf Worts- oder Zeichenebene state-of-the-art-Ergebnisse bei Sprachmodellaufgaben erzielt.