Command Palette
Search for a command to run...
トピックモデルを使用した知識ベースの単語意味解釈
トピックモデルを使用した知識ベースの単語意味解釈
Devendra Singh Chaplot; Ruslan Salakhutdinov
概要
単語の意味曖昧性解消(Word Sense Disambiguation: WSD)は、自然言語処理における未解決の問題であり、特にラベル付きデータを使用せずに与えられたテキスト内のすべての単語を解釈する非監督設定において、非常に難しくかつ有用な課題となっています。一般的に、WSDシステムでは文や対象単語周辺の小さな単語ウィンドウを文脈として使用します。これは、文脈のサイズに応じて計算複雑さが指数関数的に増加するためです。本論文では、トピックモデルの形式化を利用して、文脈内の単語数に線形比例するWSDシステムを設計しました。これにより、当該単語の解釈にドキュメント全体を文脈として利用することが可能となりました。提案された手法は潜在ディリクレ割当て(Latent Dirichlet Allocation: LDA)の変種であり、ドキュメントのトピック比率をシナセット比率で置き換えています。さらに、WordNetの情報を活用し、単語上のシナセット分布に対して非一様事前分布を割り当てるとともに、ドキュメント上のシナセット分布に対してロジスティック正規事前分布を利用しています。我々は提案手法をSenseval-2, Senseval-3, SemEval-2007, SemEval-2013およびSemEval-2015英語全単語WSDデータセットで評価し、その結果、提案手法が既存の最先端非監督知識ベースWSDシステムよりも大幅に優れていることを示しました。