HyperAIHyperAI

Command Palette

Search for a command to run...

Wie viel Komplexität benötigt eine RNN-Architektur, um syntaxsensitive Abhängigkeiten zu erlernen?

Gantavya Bhatt Hritik Bansal Rishubh Singh Sumeet Agarwal

Zusammenfassung

Langzeit-Kurzzeit-Gedächtnis-(LSTM-)Netzwerke und ihre Varianten sind in der Lage, langfristige Abhängigkeiten zu erfassen, was sich an ihrer Leistung auf einer Vielzahl linguistischer Aufgaben zeigt. Andererseits haben einfache rekurrente Netzwerke (SRNs), die in Bezug auf synaptische Verbindungen biologisch plausibler erscheinen, sich im unsupervisierten Kontext im Allgemeinen weniger erfolgreich bei der Erfassung langfristiger Abhängigkeiten sowie bei der Lokalisierung grammatischer Fehler erwiesen. In diesem Paper streben wir an, Modelle zu entwickeln, die die Lücke zwischen biologischer Plausibilität und linguistischer Kompetenz schließen. Wir stellen eine neue Architektur, das Decay RNN, vor, das die abklingende Natur neuronaler Aktivierungen berücksichtigt und sowohl erregende als auch hemmende Verbindungen innerhalb einer Neuronenpopulation modelliert. Neben seiner biologischen Inspiration zeigt unser Modell zudem wettbewerbsfähige Leistung gegenüber LSTMs bei Aufgaben zur Subjekt-Verb-Übereinstimmung, zur Beurteilung der Grammatikalität von Sätzen sowie zur Sprachmodellierung. Diese Ergebnisse liefern Hinweise darauf, welche induktiven Voreingenommenheiten RNN-Architekturen benötigen, um linguistische Phänomene erfolgreich zu modellieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wie viel Komplexität benötigt eine RNN-Architektur, um syntaxsensitive Abhängigkeiten zu erlernen? | Paper | HyperAI