Wie viel Komplexität benötigt eine RNN-Architektur, um syntaxsensitive Abhängigkeiten zu erlernen?

Langzeit-Kurzzeit-Gedächtnis-(LSTM-)Netzwerke und ihre Varianten sind in der Lage, langfristige Abhängigkeiten zu erfassen, was sich an ihrer Leistung auf einer Vielzahl linguistischer Aufgaben zeigt. Andererseits haben einfache rekurrente Netzwerke (SRNs), die in Bezug auf synaptische Verbindungen biologisch plausibler erscheinen, sich im unsupervisierten Kontext im Allgemeinen weniger erfolgreich bei der Erfassung langfristiger Abhängigkeiten sowie bei der Lokalisierung grammatischer Fehler erwiesen. In diesem Paper streben wir an, Modelle zu entwickeln, die die Lücke zwischen biologischer Plausibilität und linguistischer Kompetenz schließen. Wir stellen eine neue Architektur, das Decay RNN, vor, das die abklingende Natur neuronaler Aktivierungen berücksichtigt und sowohl erregende als auch hemmende Verbindungen innerhalb einer Neuronenpopulation modelliert. Neben seiner biologischen Inspiration zeigt unser Modell zudem wettbewerbsfähige Leistung gegenüber LSTMs bei Aufgaben zur Subjekt-Verb-Übereinstimmung, zur Beurteilung der Grammatikalität von Sätzen sowie zur Sprachmodellierung. Diese Ergebnisse liefern Hinweise darauf, welche induktiven Voreingenommenheiten RNN-Architekturen benötigen, um linguistische Phänomene erfolgreich zu modellieren.