
要約
命名エンティティ認識(NER)モデルは一般的に双方向LSTM(BiLSTM)アーキテクチャに基づいている。しかし、逐次的な構造の制約および単一入力のモデリングにより、文全体だけでなく文書全体(データセット全体)にわたるグローバルな情報を十分に活用できていない。本論文では、この二つの課題に取り組み、階層的文脈表現(文レベル表現と文書レベル表現)を導入したモデルを提案する。文レベルでは、単一文内の各語の異なる寄与を考慮し、ラベル埋め込み注意機構(label embedding attention mechanism)を用いて独立したBiLSTMによって学習される文表現を強化する。文書レベルでは、キーバリューメモリネットワークを採用し、各固有語に対して文書に依存する情報を記録する。この情報は文脈情報の類似性に敏感である。本研究で提案する二段階の階層的文脈表現は、それぞれ入力トークンの埋め込みおよびBiLSTMの対応する隠れ状態と融合される。CoNLL-2003およびOntonotes 5.0英語データセット、CoNLL-2002スペイン語データセットの3つのベンチマークNERデータセットにおける実験結果から、本手法が新たな最先端の性能を達成したことが示された。