2ヶ月前

All-but-the-Top: 単純かつ効果的な単語表現の後処理

Jiaqi Mu; Suma Bhat; Pramod Viswanath
All-but-the-Top: 単純かつ効果的な単語表現の後処理
要約

実数値の単語表現は、NLP(自然言語処理)アプリケーションを変革しました。代表的な例として、言語的規則性を捉える能力で知られるword2vecとGloVeがあります。本論文では、非常に単純でありながら直感に反する後処理技術——単語ベクトルから共通の平均ベクトルと上位の主要な方向性を除去する——が既存の表現をさらに強化することを示します。この後処理技術は、複数のデータセットおよび複数言語において、さまざまな表現手法とハイパーパラメータ選択を使用して、単語類似度、概念分類、単語アナロジーなどの辞書レベルの内在的タスクや意味的文書類似度とテキスト分類などの文章レベルのタスクで実証されています。それぞれの場合において、処理された表現は元の表現よりも一貫して優れていることが確認されました。

All-but-the-Top: 単純かつ効果的な単語表現の後処理 | 最新論文 | HyperAI超神経