Command Palette
Search for a command to run...
埋め込み間の距離の性質を活用したWord Mover's Distanceおよびその変種の高速化
埋め込み間の距離の性質を活用したWord Mover's Distanceおよびその変種の高速化
Matheus Werner Eduardo Laber
概要
カスナーらが提唱した「ワードムーバーズ・ディスタンス(WMD)」は、単語の埋め込み(embedding)によって捉えられる単語間の意味的関係を活用した文書間距離の定義である。この距離は、分類タスクにおいて最先端の誤差率を達成するなど、非常に有効であることが実証されているが、計算量が多いため、大規模な文書コレクションに対しては実用的でないという課題を抱えている。この問題を克服するために、WMDの変種が多数提案されている。その中でも、単純さ、有効性、および高速な実装が可能な点から、緩和型ワードムーバーズ・ディスタンス(RWMD)が特に成功を収めている。本研究では、埋め込み間の距離に関する経験的事実に基づく仮定を用いて、WMDおよびRWMDの高速化を実現する手法を提案する。10個のデータセットを用いた実験の結果、本手法は文書分類タスクにおいて顕著な高速化を達成しつつ、従来の誤差率を維持することが示された。