2ヶ月前

ローカルに集約された単語埋め込みのベクトル (VLAWE): 新しい文書レベルの表現

Radu Tudor Ionescu; Andrei M. Butnaru
ローカルに集約された単語埋め込みのベクトル (VLAWE): 新しい文書レベルの表現
要約

本論文では、単語埋め込みベクトルを文書埋め込みに集約する新しいテキスト文書の表現手法を提案します。当手法は、画像表現で使用される局所的に集約された記述子のベクトル(Vector of Locally-Aggregated Descriptors)から着想を得ており、以下の手順で動作します。まず、文書集合から収集した単語埋め込みをk-means法によりクラスタリングし、意味的に関連する単語埋め込みのコードブックを学習します。次に、各単語埋め込みは最も近いクラスタ中心(コードワード)に関連付けられます。その後、文書の局所的に集約された単語埋め込みベクトル(Vector of Locally-Aggregated Word Embeddings: VLAWE)表現は、各コードワードベクトルとそのコードワードに関連付けられた文書内の各単語ベクトルとの差異を累積することで計算されます。この無教師学習によって得られたVLAWE表現を分類器に組み込むことで、多様なテキスト分類タスクにおいて有用であることを示しています。当手法は最近の最先端技術と広範囲に比較され、その有効性が確認されました。さらに、映画レビューデータセットにおいて大幅な改善が見られ、精度93.3%を達成しました。これは最先端アプローチに対して絶対的な10%の向上です。当研究のコードはhttps://github.com/raduionescu/vlawe-boswe/で公開されています。

ローカルに集約された単語埋め込みのベクトル (VLAWE): 新しい文書レベルの表現 | 最新論文 | HyperAI超神経