
要約
本稿では、COLING 2016 ワークショップ「ノイズの多いユーザ生成テキスト(WNUT)」にて実施された「Twitterにおける固有表現抽出(Named Entity Recognition in Twitter)」共同課題への参加において用いたアプローチを提示する。本研究の主な課題は、ツイート特有の短さ、ノイズの多さ、口語的な表現様式に起因する、固有表現抽出の困難さである。特に、特徴工学(feature engineering)を必要とせずに、文字表記的特徴(orthographic features)を自動的に学習できる双方向長短期記憶(bidirectional Long Short-Term Memory, LSTM)を活用したアプローチを検討した。共同課題に参加した他のシステムと比較して、本システムは「分割と分類(segmentation and categorisation)」および「分割のみ(segmentation only)」の2つのサブタスクにおいて、最も優れた性能を達成した。