7ヶ月前

ディープラーニング

ニューラルネットワーク

自然言語処理

アプローチ／フレームワーク

自然言語処理

Ben Krause Iain Murray Steve Renals Liang Lu

概要

私たちは、シーケンスモデリングのための再帰型ニューラルネットワークアーキテクチャである乗法LSTM（mLSTM）を紹介します。このアーキテクチャは、長期短期記憶（LSTM）と乗法再帰型ニューラルネットワークの特徴を組み合わせています。mLSTMの特徴は、各可能な入力に対して異なる再帰遷移関数を持つ能力にあります。これは、自己回帰密度推定においてより表現力を有することを示唆しています。実証的に、mLSTMが文字レベル言語モデリングタスクにおいて標準的なLSTMやその深層変種よりも優れていることを示しています。本稿のバージョンでは、mLSTMを正則化し、text8データセットで1.27ビット/文字、Hutter Prizeデータセットで1.24ビット/文字の性能を達成しました。また、WikiText-2データセットに対して純粋なバイトレベルのmLSTMを適用し、文字レベルエントロピーが1.26ビット/文字となりました。これは単語レベルの困惑度が88.8に相当し、同じタスクにおいて類似した方法で正則化された単語レベルのLSTMと比較しても同等の性能を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

ディープラーニング

ニューラルネットワーク

自然言語処理

アプローチ／フレームワーク

自然言語処理

Ben Krause Iain Murray Steve Renals Liang Lu

概要

私たちは、シーケンスモデリングのための再帰型ニューラルネットワークアーキテクチャである乗法LSTM（mLSTM）を紹介します。このアーキテクチャは、長期短期記憶（LSTM）と乗法再帰型ニューラルネットワークの特徴を組み合わせています。mLSTMの特徴は、各可能な入力に対して異なる再帰遷移関数を持つ能力にあります。これは、自己回帰密度推定においてより表現力を有することを示唆しています。実証的に、mLSTMが文字レベル言語モデリングタスクにおいて標準的なLSTMやその深層変種よりも優れていることを示しています。本稿のバージョンでは、mLSTMを正則化し、text8データセットで1.27ビット/文字、Hutter Prizeデータセットで1.24ビット/文字の性能を達成しました。また、WikiText-2データセットに対して純粋なバイトレベルのmLSTMを適用し、文字レベルエントロピーが1.26ビット/文字となりました。これは単語レベルの困惑度が88.8に相当し、同じタスクにおいて類似した方法で正則化された単語レベルのLSTMと比較しても同等の性能を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています