HyperAIHyperAI

Command Palette

Search for a command to run...

単語ベクトルにサブワード情報の付加

Piotr Bojanowski* Edouard Grave* Armand Joulin Tomas Mikolov

概要

大規模な無ラベルコーパスで訓練された連続的な単語表現は、多くの自然言語処理タスクに有用です。このような表現を学習する一般的なモデルは、各単語に異なるベクトルを割り当てることにより、単語の形態論的特徴を無視します。これは特に、大規模な語彙と多くの希少単語を持つ言語にとって制約となります。本論文では、スキップグラムモデルに基づく新しいアプローチを提案します。このアプローチでは、各単語が文字nnn-gramの集合として表現されます。各文字nnn-gramにはベクトル表現が関連付けられ、単語はこれらの表現の和として表されます。当手法は高速であり、大規模なコーパスでのモデル訓練を迅速に行うことができるとともに、訓練データに出現しなかった単語の表現も計算することが可能です。我々は9つの異なる言語について、単語類似度およびアナロジー課題において当手法の単語表現を評価しました。最近提案された形態論的単語表現との比較を通じて、我々のベクトルがこれらの課題において最先端の性能を達成していることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています