8ヶ月前

自然言語処理

データセット

AIインフラストラクチャ

自然言語処理

Stephan Gouws; Yoshua Bengio; Greg Corrado

概要

私たちは、BilBOWA（Bilingual Bag-of-Words without Alignments）を紹介します。これは、単語のバイリンガル分散表現を学習するための単純かつ計算効率の高いモデルであり、大規模な一言語データセットにスケーリングでき、単語アライメント付き並列訓練データを必要としません。代わりに、このモデルは直接一言語データで訓練し、少量の生テキスト文アライメントデータからバイリンガル信号を抽出します。これには、新しいサンプリングされたBag-of-Wordsクロスリンガル目的関数が使用され、これにより2つのノイズ対照的言語モデルが効率的なクロスリンガル特徴学習のために正則化されます。私たちは、提案されたモデルを使用して学習したバイリンガル埋め込みが、WMT11データでのクロスリンガル文書分類タスクおよび辞書翻訳タスクにおいて最先端の方法を上回ることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

自然言語処理

データセット

AIインフラストラクチャ

自然言語処理

Stephan Gouws; Yoshua Bengio; Greg Corrado

概要

私たちは、BilBOWA（Bilingual Bag-of-Words without Alignments）を紹介します。これは、単語のバイリンガル分散表現を学習するための単純かつ計算効率の高いモデルであり、大規模な一言語データセットにスケーリングでき、単語アライメント付き並列訓練データを必要としません。代わりに、このモデルは直接一言語データで訓練し、少量の生テキスト文アライメントデータからバイリンガル信号を抽出します。これには、新しいサンプリングされたBag-of-Wordsクロスリンガル目的関数が使用され、これにより2つのノイズ対照的言語モデルが効率的なクロスリンガル特徴学習のために正則化されます。私たちは、提案されたモデルを使用して学習したバイリンガル埋め込みが、WMT11データでのクロスリンガル文書分類タスクおよび辞書翻訳タスクにおいて最先端の方法を上回ることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています