2ヶ月前

ソーシャルメディアにおけるマルチタスクニューラルネットワークを使用したノイズをモデル化して固有名詞を認識する

Gustavo Aguilar; A. Pastor López-Monroy; Fabio A. González; Thamar Solorio

要約

ドキュメント内の固有表現の認識は、多くの自然言語処理（NLP）アプリケーションにおける重要なタスクである。現在の最先端アプローチは清書テキスト（例：ニュース配信ジャンル）に対して高い性能を達成しているが、ソーシャルメディア領域のようなノイジーな環境に移行すると、これらのアルゴリズムの性能は著しく低下する。本稿では、文字レベルの音韻論と音声学、単語埋め込み、品詞タグを特徴として用いてソーシャルメディアデータの処理に挑戦する2つのシステムを紹介する。最初のモデルは、出力層に2つの条件付き確率場（CRF）分類器を含む多タスクエンドツーエンド双方向長短期記憶（BLSTM）-CRFネットワークである。2つ目のモデルは、多タスクBLSTMネットワークを特徴抽出器として使用し、学習結果を最終予測のためにCRF分類器に転送するものである。我々のシステムはWorkshop on Noisy User-generated Text 2017データセットにおいて現行の最先端技術のF1スコアをそれぞれ2.45%および3.69%上回り、ソーシャルメディア環境に適した手法を確立している。