
要約
自然言語処理における多くの進歩は、入力が発生する文脈との相互作用をより表現豊かにモデル化する方法に基づいています。一定の成功を収めた再帰ネットワークも、言語をモデル化するために最終的に必要とされる一般的性や体系性には欠けています。本研究では、現在の入力と直前の出力を相互にゲーティングする仕組みにより、有名な長短期記憶(LSTM)を拡張することを提案します。このメカニズムにより、入力とその文脈との間でより豊かな相互作用空間をモデル化することが可能になります。同様に、当モデルはLSTMによって与えられる遷移関数が文脈依存であると見なすこともできます。実験結果は、Penn TreebankおよびWikitext-2において3-4ポイントの困惑度(perplexity)改善、4つの文字ベースデータセットにおいて0.01-0.05ビット/文字(bpc)の改善を示しており、Enwik8を除くすべてのデータセットで新しい最先端の成果を達成しています。Enwik8においては、LSTMとTransformerモデル間の大きなギャップを縮めています。