17日前
遠隔教師付き関係抽出の負のデータの再検討
Chenhao Xie, Jiaqing Liang, Jingping Liu, Chengsong Huang, Wenhao Huang, Yanghua Xiao

要約
遠距離教師付き学習(distant supervision)は、関係抽出のための大量のトレーニングサンプルを自動的に生成するが、同時に二つの主要な課題を引き起こす。すなわち、ノイズの多いラベルと不均衡なトレーニングデータである。従来の研究は、誤ってラベル付けされた関係(誤検出、false positives)の削減に重点を置いてきたが、知識ベースの不完全性に起因する関係の欠落(見逃し、false negatives)についてはあまり検討されていない。さらに、従来の問題定式化では、ネガティブラベルの数がポジティブラベルに比べて圧倒的に多い。本論文では、まずネガティブデータに起因する上記の課題について包括的な分析を行う。次に、誤検出問題を軽減するため、関係抽出問題をポジティブ・アンラベルド学習(positive unlabeled learning)の枠組みとして定式化する。さらに、文レベルでの関係検出と主語・目的語の抽出を段階的に行うパイプライン手法である \textsc{ReRe} を提案し、サンプル効率の高い学習を実現する。実験結果から、提案手法は既存手法を一貫して上回り、大量の誤検出サンプルを用いて学習しても優れた性能を維持することが示された。