9 天前

RNN架构需要具备多大的复杂度才能学习语法敏感的依赖关系？

Gantavya Bhatt, Hritik Bansal, Rishubh Singh, Sumeet Agarwal

摘要

长短期记忆（LSTM）网络及其变体能够有效捕捉长距离依赖关系，这在其在多种语言任务中的优异表现中得到了充分体现。相比之下，结构更为简单的循环神经网络（SRNs）虽然在突触连接方面更具生物学合理性，但在无监督设置下，往往在捕捉长距离依赖关系以及定位语法错误方面表现欠佳。本文旨在构建一种在生物学合理性与语言能力之间取得平衡的模型。为此，我们提出了一种新型网络架构——衰减RNN（Decay RNN），该模型引入了神经元激活的衰减特性，并对神经元群体中的兴奋性与抑制性连接进行了建模。除了具有明确的生物学启发外，该模型在主谓一致、句子语法正确性判断以及语言建模等任务上，表现可与LSTM相媲美。这些结果为探究RNN架构成功建模语言现象所需归纳偏置的本质提供了重要线索。