2ヶ月前
ソーシャルメディアにおけるマルチタスクニューラルネットワークを使用したノイズをモデル化して固有名詞を認識する
Gustavo Aguilar; A. Pastor López-Monroy; Fabio A. González; Thamar Solorio

要約
ドキュメント内の固有表現の認識は、多くの自然言語処理(NLP)アプリケーションにおける重要なタスクである。現在の最先端アプローチは清書テキスト(例:ニュース配信ジャンル)に対して高い性能を達成しているが、ソーシャルメディア領域のようなノイジーな環境に移行すると、これらのアルゴリズムの性能は著しく低下する。本稿では、文字レベルの音韻論と音声学、単語埋め込み、品詞タグを特徴として用いてソーシャルメディアデータの処理に挑戦する2つのシステムを紹介する。最初のモデルは、出力層に2つの条件付き確率場(CRF)分類器を含む多タスクエンドツーエンド双方向長短期記憶(BLSTM)-CRFネットワークである。2つ目のモデルは、多タスクBLSTMネットワークを特徴抽出器として使用し、学習結果を最終予測のためにCRF分類器に転送するものである。我々のシステムはWorkshop on Noisy User-generated Text 2017データセットにおいて現行の最先端技術のF1スコアをそれぞれ2.45%および3.69%上回り、ソーシャルメディア環境に適した手法を確立している。