2ヶ月前

ShotgunWSD: DNA配列決定に着想を得た非監督型の全単語意味曖昧性解消アルゴリズム

Andrei M. Butnaru; Radu Tudor Ionescu; Florentina Hristea
ShotgunWSD: DNA配列決定に着想を得た非監督型の全単語意味曖昧性解消アルゴリズム
要約

本論文では、文書レベルでの単語意味曖昧性解消(Word Sense Disambiguation: WSD)のための新しい非監督アルゴリズムを提案します。当該アルゴリズムは、遺伝学分野で広く使用されている全ゲノムシークエンシング手法であるショットガンシークエンシング技術に着想を得ています。提案するWSDアルゴリズムは主に3つのステップに基づいています。まず、文書から選択された短いコンテキストウィンドウ(最大10語)に対して、力尽くのWSDアルゴリズムを適用し、各ウィンドウの可能性のある意味構成の短いリストを生成します。次に、これらの局所的な意味構成を接尾辞と接頭辞の一致に基づいてより長い複合構成に組み立てます。得られた構成は長さによって順位付けられ、各単語の意味はその単語が出現する上位k個の構成のみを考慮した投票方式により選択されます。我々は、他の最先端の非監督WSDアルゴリズムと比較し、優れた性能を示すことを実証しました。場合によっては非常に大きな差で性能が上回ります。また、あるデータセットにおいて最も一般的な意味(Most Common Sense: MCS)ベースラインよりも優れた性能を達成できることも示しています。さらに、当該アルゴリズムにはパラメータが非常に少なく、パラメータ調整に対するロバスト性があり、他の生物学的に着想を得た手法とは異なり決定論的な解を与える(ランダムな選択を含まない)という特徴があります。

ShotgunWSD: DNA配列決定に着想を得た非監督型の全単語意味曖昧性解消アルゴリズム | 最新論文 | HyperAI超神経