2ヶ月前
単一の深層双方向LSTMネットワークによるテキストデータの語義解消
Ahmad Pesaranghader; Ali Pesaranghader; Stan Matwin; Marina Sokolova

要約
最近の技術的および科学的な進歩により、オフライン/オンラインの叙述、研究論文、臨床報告など、非構造化テキストデータに豊富な情報が隠されています。これらのデータを適切に解析するためには、言語や技術領域固有の曖昧さに対処するために、意味消解(Word Sense Disambiguation: WSD)アルゴリズムが自然言語処理(Natural Language Processing: NLP)パイプラインにおける多くの困難を回避することができます。しかし、特定の言語や技術領域において大量の曖昧な単語が存在することを考えると、既存のWSDモデルを適切に展開する際には制約が生じることがあります。本論文では、一単語につき一分類器(one-classifier-per-one-word)のWSDアルゴリズムの問題に対処するために、意味と文脈シーケンスを考慮してすべての曖昧な単語に対して集中的に動作する単一の双方向長期短期記憶(Bidirectional Long Short-Term Memory: BLSTM)ネットワークを提案します。SensEval-3ベンチマークで評価した結果、当モデルの性能はトップクラスのWSDアルゴリズムと同等であることを示しています。また、追加的な修正を適用することでモデルの欠点を軽減し、より多くの訓練データが必要となる理由についても議論します。