
要約
最先端のシーケンスラベリングシステムは、従来、手作業で生成された特徴量やデータ前処理といったタスク固有の知識を大量に必要としていました。本論文では、双方向LSTM(Long Short-Term Memory)、CNN(Convolutional Neural Network)およびCRF(Conditional Random Field)の組み合わせを使用することで、単語レベルと文字レベルの表現を自動的に活用できる新しいニューラルネットワークアーキテクチャを提案します。当システムは真正のエンドツーエンド型であり、特徴量設計やデータ前処理を必要としないため、様々なシーケンスラベリングタスクに適用可能です。当システムを2つのデータセットで評価しました。1つ目は品詞タギング(Part-of-Speech tagging)用のPenn Treebank WSJコーパス、2つ目は固有表現認識(Named Entity Recognition)用のCoNLL 2003コーパスです。その結果、両データセットにおいて最先端の性能を達成しました。品詞タギングでは97.55%の精度、固有表現認識では91.21%のF1スコアを得ました。