7ヶ月前

自然言語処理

ディープラーニング

ドキュメント理解

自然言語処理

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

概要

多くの機械学習アルゴリズムは、入力を固定長の特徴ベクトルとして表現する必要があります。テキストの場合、最も一般的な固定長の特徴の一つがbag-of-words（単語の袋）です。しかし、bag-of-words特徴には二つの主要な弱点があります：単語の順序が失われることと、単語の意味が無視されることです。例えば、「powerful」（強力な）、「strong」（強い）および「Paris」（パリ）は同じ距離にあります。本論文では、Paragraph Vectorという非監督学習アルゴリズムを提案します。このアルゴリズムは、文章、段落、ドキュメントなどの可変長のテキストから固定長の特徴表現を学習します。当該アルゴリズムでは、各ドキュメントをそのドキュメント内の単語を予測するために訓練された密ベクトルで表現します。この構造により、当該アルゴリズムはbag-of-wordsモデルの弱点を克服する可能性があります。実験結果は、Paragraph Vectorsがbag-of-wordsモデルだけでなく他のテキスト表現手法よりも優れていることを示しています。最後に、我々はいくつかのテキスト分類および感情分析タスクにおいて新たな最先端の結果を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

自然言語処理

ディープラーニング

ドキュメント理解

自然言語処理

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

概要

多くの機械学習アルゴリズムは、入力を固定長の特徴ベクトルとして表現する必要があります。テキストの場合、最も一般的な固定長の特徴の一つがbag-of-words（単語の袋）です。しかし、bag-of-words特徴には二つの主要な弱点があります：単語の順序が失われることと、単語の意味が無視されることです。例えば、「powerful」（強力な）、「strong」（強い）および「Paris」（パリ）は同じ距離にあります。本論文では、Paragraph Vectorという非監督学習アルゴリズムを提案します。このアルゴリズムは、文章、段落、ドキュメントなどの可変長のテキストから固定長の特徴表現を学習します。当該アルゴリズムでは、各ドキュメントをそのドキュメント内の単語を予測するために訓練された密ベクトルで表現します。この構造により、当該アルゴリズムはbag-of-wordsモデルの弱点を克服する可能性があります。実験結果は、Paragraph Vectorsがbag-of-wordsモデルだけでなく他のテキスト表現手法よりも優れていることを示しています。最後に、我々はいくつかのテキスト分類および感情分析タスクにおいて新たな最先端の結果を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

文とドキュメントの分散表現 | 記事 | HyperAI超神経