13日前

ドキュメント分類の向上に向けたマルチセンス埋め込みの活用

Vivek Gupta, Ankit Saw, Pegah Nokhiz, Harshit Gupta, Partha Talukdar
ドキュメント分類の向上に向けたマルチセンス埋め込みの活用
要約

テキストドキュメントの効率的な表現は、多くの自然言語処理(NLP)タスクにおける重要な基盤である。長文分類に関する研究では、文の表現において単語ベクトルの単純な重み付き平均が、より複雑なニューラルモデルを上回る場合が多いことが示されている。最近提案された「スパースコンポジットドキュメントベクトル(SCDV)」(Mekalaら、2017年)は、単語ベクトルに対するソフトクラスタリングを用いて、このアプローチを文からドキュメントへと拡張した。しかし、SCDVは単語の多義性(multi-sense nature)を無視しており、また次元の呪い(curse of higher dimensionality)に苦しむという課題を抱えている。本研究では、これらの欠点を解決し、SCDV-MSを提案する。SCDV-MSは多義的単語埋め込み(multi-sense word embeddings)を活用し、低次元の多様体(manifold)を学習する。複数の実世界データセットを用いた広範な実験により、SCDV-MSによる埋め込み表現が、多クラスおよびマルチラベルテキスト分類タスクにおいて、従来の最先端手法を上回ることを示した。さらに、テキスト分類タスクにおける時間的・空間的計算量の観点からも、SCDV-MSはSCDVよりも効率的であることが確認された。

ドキュメント分類の向上に向けたマルチセンス埋め込みの活用 | 最新論文 | HyperAI超神経