9 天前

RNN架构需要具备多大的复杂度才能学习语法敏感的依赖关系?

Gantavya Bhatt, Hritik Bansal, Rishubh Singh, Sumeet Agarwal
RNN架构需要具备多大的复杂度才能学习语法敏感的依赖关系?
摘要

长短期记忆(LSTM)网络及其变体能够有效捕捉长距离依赖关系,这在其在多种语言任务中的优异表现中得到了充分体现。相比之下,结构更为简单的循环神经网络(SRNs)虽然在突触连接方面更具生物学合理性,但在无监督设置下,往往在捕捉长距离依赖关系以及定位语法错误方面表现欠佳。本文旨在构建一种在生物学合理性与语言能力之间取得平衡的模型。为此,我们提出了一种新型网络架构——衰减RNN(Decay RNN),该模型引入了神经元激活的衰减特性,并对神经元群体中的兴奋性与抑制性连接进行了建模。除了具有明确的生物学启发外,该模型在主谓一致、句子语法正确性判断以及语言建模等任务上,表现可与LSTM相媲美。这些结果为探究RNN架构成功建模语言现象所需归纳偏置的本质提供了重要线索。