17日前
コンテキストか名前か?ニューラル関係抽出に関する実証的研究
Hao Peng, Tianyu Gao, Xu Han, Yankai Lin, Peng Li, Zhiyuan Liu, Maosong Sun, Jie Zhou

要約
ニューラルモデルは関係抽出(RE)ベンチマークにおいて顕著な成功を収めている。しかし、既存のREモデルが意思決定を行う際にどの種類の情報が影響を与えているのか、またその性能をさらに向上させるにはどうすればよいかについて、明確な理解は得られていない。この問題に対処するため、本文中における2つの主要な情報源、すなわちテキスト的文脈とエンティティの表記(名前)の影響を実証的に検討した。その結果、(i)文脈が予測の主要な根拠となっている一方で、REモデルはエンティティの表記から得られる情報、特にエンティティのタイプ情報に大きく依存していることが明らかになった。(ii)また、既存のデータセットがエンティティの表記を通じて浅いヒューリスティクスを漏洩しており、これがREベンチマークにおける高精度に寄与している可能性があることが示された。これらの分析を踏まえ、エンティティの記憶や表記における表面的な手がかりの利用を回避しつつ、テキスト的文脈およびタイプ情報の深い理解を可能にする、エンティティマスク付き対照的事前学習フレームワークを提案する。広範な実験を通じて本研究の主張を裏付け、提案したフレームワークがさまざまなREシナリオにおいてニューラルモデルの効果性と頑健性を向上させることを示した。本研究で使用したすべてのコードおよびデータセットは、https://github.com/thunlp/RE-Context-or-Names にて公開されている。