7ヶ月前

自然言語処理

ディープラーニング

データセット

AIインフラストラクチャ

自然言語処理

Ciprian Chelba Tomas Mikolov Mike Schuster Qi Ge Thorsten Brants Phillipp Koehn Tony Robinson

概要

統計的言語モデルの進歩を測定するために新しいベンチマークコーパスを提案します。約10億語の学習データを含むこのベンチマークは、新しい言語モデリング技術を迅速に評価し、他の先進的な技術と組み合わせた際の貢献度を比較するのに役立つことを期待しています。いくつかの既知の言語モデルの性能を示し、最良の結果は再帰型ニューラルネットワークに基づく言語モデルで得られました。ベースラインとなる未剪枝Kneser-Ney 5-gramモデルはパープレキシティ67.6を達成しました；複数の技術を組み合わせることで、このベースラインに対してパープレキシティが35%減少し、クロスエントロピー（ビット）では10%減少しました。このベンチマークはcode.google.comプロジェクトとして公開されており、学習データ/ホールドアウトデータを作成するためのスクリプトだけでなく、各ベースラインn-gramモデルにおける10つのホールドアウトデータセットそれぞれの単語に対する対数確率値も提供されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

自然言語処理

ディープラーニング

データセット

AIインフラストラクチャ

自然言語処理

Ciprian Chelba Tomas Mikolov Mike Schuster Qi Ge Thorsten Brants Phillipp Koehn Tony Robinson

概要

統計的言語モデルの進歩を測定するために新しいベンチマークコーパスを提案します。約10億語の学習データを含むこのベンチマークは、新しい言語モデリング技術を迅速に評価し、他の先進的な技術と組み合わせた際の貢献度を比較するのに役立つことを期待しています。いくつかの既知の言語モデルの性能を示し、最良の結果は再帰型ニューラルネットワークに基づく言語モデルで得られました。ベースラインとなる未剪枝Kneser-Ney 5-gramモデルはパープレキシティ67.6を達成しました；複数の技術を組み合わせることで、このベースラインに対してパープレキシティが35%減少し、クロスエントロピー（ビット）では10%減少しました。このベンチマークはcode.google.comプロジェクトとして公開されており、学習データ/ホールドアウトデータを作成するためのスクリプトだけでなく、各ベースラインn-gramモデルにおける10つのホールドアウトデータセットそれぞれの単語に対する対数確率値も提供されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています