HyperAIHyperAI

Command Palette

Search for a command to run...

Mogrifier LSTM

Gábor Melis Tomáš Kočiský Phil Blunsom

概要

自然言語処理における多くの進歩は、入力が発生する文脈との相互作用をより表現豊かにモデル化する方法に基づいています。一定の成功を収めた再帰ネットワークも、言語をモデル化するために最終的に必要とされる一般的性や体系性には欠けています。本研究では、現在の入力と直前の出力を相互にゲーティングする仕組みにより、有名な長短期記憶(LSTM)を拡張することを提案します。このメカニズムにより、入力とその文脈との間でより豊かな相互作用空間をモデル化することが可能になります。同様に、当モデルはLSTMによって与えられる遷移関数が文脈依存であると見なすこともできます。実験結果は、Penn TreebankおよびWikitext-2において3-4ポイントの困惑度(perplexity)改善、4つの文字ベースデータセットにおいて0.01-0.05ビット/文字(bpc)の改善を示しており、Enwik8を除くすべてのデータセットで新しい最先端の成果を達成しています。Enwik8においては、LSTMとTransformerモデル間の大きなギャップを縮めています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています