17日前
DocRED向けにBertを2段階プロセスでファインチューニング
Hong Wang, Christfried Focke, Rob Sylvester, Nilesh Mishra, William Wang

要約
複数のエンティティ間の関係をモデル化する研究は近年注目を集めている。これを促進するため、文書レベルの関係抽出に関する新たなデータセット「DocRED」が収集された。現在のこのタスクに対するベースライン手法は、文書全体をBiLSTMで符号化し、初期から訓練する方式である。しかしながら、我々はこうした単純なベースラインでは、エンティティ間の複雑な相互作用を十分に捉えることはできないと主張する。本論文では、より強力なベースラインを提供するため、事前学習済み言語モデル(BERT)を適用することを検討した。また、このタスクを段階的に処理することで性能をさらに向上させられることも発見した。第1段階では、2つのエンティティ間に関係が存在するかどうかを予測し、第2段階では、具体的な関係の種類を予測する。