HyperAIHyperAI
il y a 10 jours

Quelle complexité une architecture RNN doit-elle posséder pour apprendre des dépendances sensibles à la syntaxe ?

Gantavya Bhatt, Hritik Bansal, Rishubh Singh, Sumeet Agarwal
Quelle complexité une architecture RNN doit-elle posséder pour apprendre des dépendances sensibles à la syntaxe ?
Résumé

Les réseaux à mémoire à long et court terme (LSTM) et leurs variantes sont capables de capturer des dépendances à longue portée, ce qui se traduit par leurs performances remarquables sur diverses tâches linguistiques. En revanche, les réseaux récurrents simples (SRN), qui semblent plus fondés sur des principes biologiques en ce qui concerne les connexions synaptiques, se sont généralement révélés moins efficaces pour modéliser les dépendances à longue portée ainsi que les localisations des erreurs grammaticales dans un cadre non supervisé. Dans cet article, nous cherchons à développer des modèles qui combinent la plausibilité biologique et la compétence linguistique. Nous proposons une nouvelle architecture, appelée Decay RNN, qui intègre la nature décroissante des activations neuronales et modélise les connexions excitatrices et inhibitrices au sein d'une population de neurones. En plus de son inspiration biologique, notre modèle obtient des performances compétitives par rapport aux LSTM sur des tâches telles que l'accord sujet-verbe, la grammaire des phrases et la modélisation du langage. Ces résultats offrent des indices utiles pour explorer les biais inductifs nécessaires aux architectures RNN afin de modéliser avec succès les phénomènes linguistiques.