2ヶ月前

文とドキュメントの分散表現

Quoc V. Le; Tomas Mikolov
文とドキュメントの分散表現
要約

多くの機械学習アルゴリズムは、入力を固定長の特徴ベクトルとして表現する必要があります。テキストの場合、最も一般的な固定長の特徴の一つがbag-of-words(単語の袋)です。しかし、bag-of-words特徴には二つの主要な弱点があります:単語の順序が失われることと、単語の意味が無視されることです。例えば、「powerful」(強力な)、「strong」(強い)および「Paris」(パリ)は同じ距離にあります。本論文では、Paragraph Vectorという非監督学習アルゴリズムを提案します。このアルゴリズムは、文章、段落、ドキュメントなどの可変長のテキストから固定長の特徴表現を学習します。当該アルゴリズムでは、各ドキュメントをそのドキュメント内の単語を予測するために訓練された密ベクトルで表現します。この構造により、当該アルゴリズムはbag-of-wordsモデルの弱点を克服する可能性があります。実験結果は、Paragraph Vectorsがbag-of-wordsモデルだけでなく他のテキスト表現手法よりも優れていることを示しています。最後に、我々はいくつかのテキスト分類および感情分析タスクにおいて新たな最先端の結果を達成しました。

文とドキュメントの分散表現 | 最新論文 | HyperAI超神経