2ヶ月前
ソーシャルメディアデータの固有名詞認識に向けた多タスクアプローチ
Gustavo Aguilar; Suraj Maharjan; Adrian Pastor López-Monroy; Thamar Solorio

要約
ソーシャルメディアデータの固有表現認識(Named Entity Recognition)は、その本質的なノイズ性により困難を伴います。文法構造の不適切さに加えて、綴りの不一致や多数の非公式略語が含まれています。本研究では、微細な固有表現(NE)分類という主要タスクと、より一般的な固有表現(NE)セグメンテーションという補助タスクを組み合わせた新しいマルチタスクアプローチを提案します。マルチタスクニューラルネットワークアーキテクチャは、単語列と文字列から高次の特徴表現を学習し、基本的な品詞タグや Gazetteer 情報も活用します。このニューラルネットワークは特徴抽出器として機能し、条件付き随機フィールド(Conditional Random Fields)分類器に情報を供給します。私たちは第3回ノイジー・ユーザ生成テキストに関するワークショップ(WNUT-2017)で、エンティティF1スコア41.86%およびサーフェイスF1スコア40.24%を達成し、第1位となりました。