HyperAIHyperAI

Command Palette

Search for a command to run...

過去の解読による言語モデルの改善

Siddhartha Brahma

概要

高正規化LSTMは言語モデルのいくつかのベンチマークデータセットで印象的な結果を達成しています。本研究では、コンテキスト内の最後のトークンを次のトークンの予測分布を使用してデコードする新しい正規化手法を提案します。この手法により、モデルはより多くのコンテキスト情報を保持する方向にバイアスがかかるため、次のトークンの予測能力が向上します。パラメータ数や学習時間にほとんど追加負荷をかけずに、我々の過去デコード正規化(Past Decode Regularization, PDR)手法は単一のソフトマックスを使用してPenn Treebankデータセットで単語レベルのペルプレキシティ55.6、WikiText-2データセットで63.5を達成しました。さらに、PDRとソフトマックス混合モデルを組み合わせることで、これらのデータセットでの単語レベルのペルプレキシティが53.8と60.5に改善しました。また、我々の手法はPenn Treebankキャラクターデータセットにおいて文字レベル言語モデリングで1.169ビット/文字を達成しました。これらの結果はそれぞれの設定において新たな最先端を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
過去の解読による言語モデルの改善 | 記事 | HyperAI超神経