9日前
RNNアーキテクチャは構文に敏感な依存関係を学習するには、どの程度の複雑性を必要とするのか?
Gantavya Bhatt, Hritik Bansal, Rishubh Singh, Sumeet Agarwal

要約
長短期記憶(LSTM)ネットワーク及其の変種は、多様な言語的タスクにおける高い性能から、長距離依存関係を効果的に捉える能力を有していることが明らかである。一方、シナプス接続の観点からより生物学的に妥当性を持つとされる単純な再帰型ネットワーク(SRN)は、無監督設定下において長距離依存関係の捉え方や文法的誤りの位置を特定する能力が、一般的にそれほど優れていない。本論文では、生物学的妥当性と言語的習得能力の間のギャップを埋めるモデルの開発を目指す。我々は、ニューロン活性の時間的減衰特性を組み込み、ニューロン集団における興奮性および抑制性接続をモデル化する新しいアーキテクチャ「Decay RNN」を提案する。このモデルは生物学的インスピレーションに加え、主語・動詞一致、文の文法的妥当性、言語モデリングといったタスクにおいて、LSTMと比較して競争力のある性能を示している。これらの結果は、RNNアーキテクチャが言語現象を成功裏にモデル化するためには、どのような誘導的バイアス(inductive biases)が不可欠であるかを解明する手がかりを提供している。