
要約
文の構文木への解析は、自然言語処理(NLP)における下流タスクに有益である。遷移ベースの解析器は、状態遷移システムにおける操作の実行によって構文木を構築する。これらの解析器は計算的に効率的であり、部分木に基づいて機械学習を用いて操作を予測することができる。しかし、従来の遷移ベースの解析器は主にシフト・リダクション遷移システムに依拠しており、人間が文を解析する方法と整合性が低い。心理言語学的研究によれば、人間の解析は強く逐次的(incremental)である:人間は各ステップで正確に1つのトークンを追加することで、単一の解析木を構築する。本論文では、新たな遷移システム「attach-juxtapose」を提案する。このシステムは強く逐次的であり、部分文を単一の木で表現する。各操作は部分木に正確に1つのトークンを追加する。本遷移システムに基づき、強く逐次的な解析器を開発した。各ステップにおいて、部分木をグラフニューラルネットワークで符号化し、次に実行すべき操作を予測する。本解析器はPenn Treebank(PTB)およびChinese Treebank(CTB)上で評価された。PTBでは、構文木のみを用いて訓練された既存の解析器を上回り、依存構造を追加の学習データとして用いる最先端の解析器と同等の性能を達成した。CTBでは、新たな最先端性能を確立した。コードは https://github.com/princeton-vl/attach-juxtapose-parser で公開されている。