HyperAIHyperAI

Command Palette

Search for a command to run...

単語埋め込み正則化とソフト類似度測定を用いたテキスト分類

Vít Novotný Eniafe Festus Ayetiran Michal Štefánik Petr Sojka

概要

ミコロフらの画期的な研究以降、単語埋め込み(word embeddings)は自然言語処理(NLP)タスクにおける標準的な単語表現として広く採用されてきた。単語埋め込みから抽出される文書類似度測度、特にソフトコサイン法(soft cosine measure, SCM)やワードムーバーズ距離(Word Mover's Distance, WMD)は、意味的テキスト類似度およびテキスト分類において、最先端の性能を達成していると報告されている。WMDはテキスト分類および意味的テキスト類似度において優れた性能を発揮しているものの、平均時間計算量が超立方体(super-cubic)オーダーであるため、実用上は非現実的である。一方、SCMは最悪ケースで二次時間計算量を示すが、そのテキスト分類における性能がWMDと比較されたことはこれまで一度も行われていない。近年、2種類の単語埋め込み正則化技術が、ストレージおよびメモリコストの削減、学習速度および文書処理速度の向上、さらに単語類推・単語類似度・意味的テキスト類似度といったタスクにおける性能向上をもたらすことが示された。しかし、これらの正則化技術がテキスト分類タスクに与える影響については、まだ検討がなされていない。本研究では、2種類の単語埋め込み正則化技術が、SCMおよびWMDの文書処理速度およびテキスト分類におけるタスク性能に及ぼす個別的および統合的な影響を検証する。評価には、k近傍法(kNN)分類器と、BBCSPORT、TWITTER、OHSUMED、REUTERS-21578、AMAZON、20NEWSの6つの標準データセットを用いる。その結果、正則化を施した単語埋め込みを用いることで、非正則化埋め込みと比較して、kNN分類器のテスト誤差が平均39%削減されることを示した。また、コレスキー分解(Cholesky factorization)を用いた実用的な正則化埋め込みの導出プロセスを提示した。さらに、正則化された埋め込みを用いたSCMは、WMDを著しく上回る性能を発揮し、処理速度は10,000倍以上も高速であることを明らかにした。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
単語埋め込み正則化とソフト類似度測定を用いたテキスト分類 | 記事 | HyperAI超神経