vor 2 Monaten

Sprachliches Wissen als Gedächtnis für Rekurrente Neuronale Netze

Bhuwan Dhingra; Zhilin Yang; William W. Cohen; Ruslan Salakhutdinov

Abstract

Das Training rekurrenter Neuronaler Netze zur Modellierung langer Abhängigkeiten ist schwierig. Daher schlagen wir vor, externes linguistisches Wissen als explizites Signal zu verwenden, um das Modell darüber zu informieren, welche Erinnerungen es nutzen sollte. Insbesondere wird externes Wissen verwendet, um eine Sequenz mit typisierten Kanten zwischen beliebig weit entfernten Elementen zu erweitern, und der resultierende Graph wird in gerichtete azyklische Teilgraphen zerlegt. Wir stellen ein Modell vor, das solche Graphen als explizites Gedächtnis in rekurrenten Neuronalen Netzen kodiert und es zur Modellierung von Koreferenzrelationen in Texten einsetzt. Wir wenden unser Modell auf mehrere Textverstehensaufgaben an und erreichen neue Stand der Technik-Ergebnisse auf allen betrachteten Benchmarks, einschließlich CNN, bAbi und LAMBADA. Bei den bAbi QA-Aufgaben löst unser Modell 15 von 20 Aufgaben mit nur 1000 Trainingsbeispielen pro Aufgabe. Eine Analyse der gelernten Repräsentationen zeigt zudem die Fähigkeit unseres Modells, detaillierte Entitätsinformationen über ein Dokument hinweg zu kodieren.