
要約
依存木構造は文内の語間における長距離依存関係および文法的関係を捉えることができる。文法的関係(例:名詞的主語、目的語)は、特定の固有表現(Named Entity)の存在を推論する可能性を秘めている。また、依存木における語間の長距離依存関係を活用することで、固有表現抽出(Named Entity Recognition, NER)の性能向上が期待できる。本研究では、完全な依存木を符号化し、上述の特性を捉えるために、シンプルでありながら効果的な依存関係誘導型LSTM-CRFモデルを提案する。データ統計の結果、固有表現の種類と依存関係の間には強い相関が認められた。複数の標準データセットにおいて広範な実験を実施した結果、提案モデルがNERの性能向上に有効であり、最先端の性能を達成することを示した。さらに分析により、性能向上の主な要因は依存木から得られる依存関係および長距離相互作用であることが明らかになった。