HyperAIHyperAI

Command Palette

Search for a command to run...

LSTM言語モデルの正則化と最適化

Stephen Merity Nitish Shirish Keskar Richard Socher

概要

再帰型ニューラルネットワーク(RNN)の一種である長期短期記憶ネットワーク(LSTM)は、機械翻訳、言語モデル、質問応答など多くのシーケンス学習タスクの基本的な構成要素として機能しています。本論文では、単語レベルの言語モデリングに焦点を当て、LSTMベースのモデルを正則化および最適化するための戦略について調査します。我々は、隠れ層間の重みに対してDropConnectを使用する再帰型正則化の一形態として、ウェイトドロップLSTMを提案します。さらに、ユーザーが調整する必要がない非単調条件に基づいて平均化トリガーを決定する平均確率勾配法(Averaged Stochastic Gradient Descent, ASGD)の変種であるNT-ASGDを導入します。これらの正則化戦略と他の方法を使用することで、Penn Treebankデータセットで57.3、WikiText-2データセットで65.8という最先端の単語レベルパープレキシティを達成しました。また、提案したモデルと組み合わせてニューラルキャッシュの効果を探ることで、Penn Treebankデータセットでは52.8、WikiText-2データセットでは52.0というさらに低い最先端パープレキシティを達成しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています