2ヶ月前

文の袋からドキュメントへ:機械読解を用いた間接監督関係抽出

Lingyong Yan; Xianpei Han; Le Sun; Fangchao Liu; Ning Bian
文の袋からドキュメントへ:機械読解を用いた間接監督関係抽出
要約

遠隔監督(Distant Supervision, DS)は関係抽出の有望な手法であるが、しばしばノイズラベル問題に悩まされる。従来のDS手法では、通常エンティティペアを文の集合として表現し、多実例学習技術を使用してラベルのノイズを除去する。しかし、この集合ベースのパラダイムは、文間レベルおよびエンティティレベルの証拠を関係抽出に活用することができず、そのノイズ除去アルゴリズムはしばしば専門的で複雑である。本論文では、新しいDSパラダイムであるドキュメントベースの遠隔監督を提案する。このパラダイムは、関係抽出をドキュメントベースの機械読解(Machine Reading Comprehension, MRC)タスクとしてモデル化する。特定のエンティティに関するすべての文を再構成してドキュメントとし、関係固有の質問によりドキュメントから関係を抽出することで、ドキュメントベースのDSパラダイムは同時にすべての文レベル、文間レベル、およびエンティティレベルの証拠を符号化し活用できる。さらに、新たな損失関数であるDSLoss(遠隔監督損失)を設計した。これにより、$\langle$ドキュメント, 質問, 回答$\rangle$ の組み合わせのみを使用してMRCモデルを効果的に訓練でき、ノイズラベル問題が本質的に解決される。実験結果は、当方の手法が最新かつ最高水準のDS性能を達成していることを示している。

文の袋からドキュメントへ:機械読解を用いた間接監督関係抽出 | 最新論文 | HyperAI超神経