2ヶ月前

双方向LSTM-CNNを用いた固有表現認識

Jason P.C. Chiu; Eric Nichols
双方向LSTM-CNNを用いた固有表現認識
要約

固有表現認識は、従来、高性能を達成するためには特徴量エンジニアリングや辞書の大量の知識が必要な課題でした。本論文では、ハイブリッド双方向LSTMとCNNアーキテクチャを使用して単語レベルおよび文字レベルの特徴量を自動的に検出する新しいニューラルネットワークアーキテクチャを提案します。これにより、多くの特徴量エンジニアリングの必要がなくなります。また、部分的な辞書一致をニューラルネットワークに符号化する新しい手法も提案し、既存の手法と比較を行いました。広範な評価結果から、トークン化されたテキストと公開されている単語埋め込みのみを用いて、我々のシステムはCoNLL-2003データセットで競争力があり、OntoNotes 5.0データセットでは以前報告されていた最先端の性能を2.13 F1ポイント上回ることが示されました。さらに、公開されている情報源から構築した2つの辞書を使用することで、CoNLL-2003ではF1スコア91.62、OntoNotesでは86.28という新たな最先端の性能を達成し、重い特徴量エンジニアリングや独自の辞書、豊富なエンティティリンク情報を利用するシステムを超えることができました。