1ヶ月前

単語ベクトルにサブワード情報の付加

Piotr Bojanowski; Edouard Grave; Armand Joulin; Tomas Mikolov

要約

大規模な無ラベルコーパスで訓練された連続的な単語表現は、多くの自然言語処理タスクに有用です。このような表現を学習する一般的なモデルは、各単語に異なるベクトルを割り当てることにより、単語の形態論的特徴を無視します。これは特に、大規模な語彙と多くの希少単語を持つ言語にとって制約となります。本論文では、スキップグラムモデルに基づく新しいアプローチを提案します。このアプローチでは、各単語が文字$n$-gramの集合として表現されます。各文字$n$-gramにはベクトル表現が関連付けられ、単語はこれらの表現の和として表されます。当手法は高速であり、大規模なコーパスでのモデル訓練を迅速に行うことができるとともに、訓練データに出現しなかった単語の表現も計算することが可能です。我々は9つの異なる言語について、単語類似度およびアナロジー課題において当手法の単語表現を評価しました。最近提案された形態論的単語表現との比較を通じて、我々のベクトルがこれらの課題において最先端の性能を達成していることを示しています。