2ヶ月前
並列インスタンスクエリネットワークを用いた固有名詞認識
Yongliang Shen; Xiaobin Wang; Zeqi Tan; Guangwei Xu; Pengjun Xie; Fei Huang; Weiming Lu; Yueting Zhuang

要約
固有表現認識(Named Entity Recognition, NER)は自然言語処理における基本的なタスクである。最近の研究では、固有表現認識を読解タスクとして扱い、エンティティを抽出するためにタイプごとにクエリを手動で構築している。しかし、このパラダイムには3つの問題がある。第一に、タイプごとのクエリは1回の推論で1種類のエンティティしか抽出できないため、効率が悪い。第二に、異なるタイプのエンティティの抽出が孤立しており、それらの間の依存関係が無視されている。第三に、クエリ構築は外部知識に依存しており、数百ものエンティティタイプを持つ現実的なシナリオへの適用が難しい。これらの問題に対処するため、我々は並列インスタンスクエリネットワーク(Parallel Instance Query Network, PIQN)を提案する。PIQNは、文からエンティティを並列的に抽出するための全体的な学習可能なインスタンスクエリを設定する。各インスタンスクエリは1つのエンティティを予測し、すべてのインスタンスクエリを同時に入力することで、全てのエン蒂티を並列的に照会できる。外部知識から構築されるのではなく、インスタンスクエリは訓練中に異なるクエリ意味論を学習できる。モデルの訓練においては、ラベル割り当てを一対多の線形割り当て問題(Linear Assignment Problem, LAP)として扱い、最小限の割り当てコストでゴールドエンティティをインスタンスクエリに動的に割り当てる。ネスト型およびフラット型NERデータセットでの実験結果は、我々が提案した方法が従来の最先端モデルよりも優れていることを示している。