
要約
近年提案された命名エンティティ認識(NER)のニューラルモデルの多くは、外部リソースの収集や手作業による特徴設計を回避することに重点を置いた完全にデータ駆動型のアプローチを採用している。しかし、このアプローチは、注釈付きデータの量が限られているため、モデルが注釈データを超える外部の教師信号にアクセスできず、過学習のリスクが高まる傾向にある。その結果、注釈済みエンティティ以外への一般化能力が制限される。本研究では、外部のガゼテア(地名辞書など)を適切に活用することで、セグメンテーション型ニューラルNERモデルの性能向上が可能であることを示す。最近提案されたハイブリッド半マルコフCRFアーキテクチャにシンプルなモジュールを追加したところ、有望な結果が得られた。