2ヶ月前
異なるラベリングレベルを持つドキュメントレベルの関係抽出のための統一された正例-未ラベリング学習フレームワーク
Ye Wang; Xinxin Liu; Wenxin Hu; Tao Zhang

要約
ドキュメントレベルの関係抽出(RE)は、複数の文にわたるエンティティ間の関係を特定することを目指しています。これまでの多くの手法は、完全監督下でのドキュメントレベルのREに焦点を当てていました。しかし、実世界では、ドキュメント内のすべての関係を完全にラベリングすることは費用が高く、困難です。これは、ドキュメントレベルのREにおけるエンティティペアの数がエンティティの数とともに二次的に増加するためです。このような一般的な不完全ラベリング問題を解決するために、私たちは統一された正例-未ラベリング学習フレームワークであるシフトと二次順位損失正例-未ラベリング(SSR-PU)学習を提案します。私たちは初めて、ドキュメントレベルのREに対して正例-未ラベリング(PU)学習を使用しました。データセットのラベル付きデータが未ラベリングデータの事前分布に影響を与える可能性があることを考慮し、訓練データの事前分布シフト下でのPU学習を導入しました。また、非クラススコアを適応的な閾値として使用することで、二次順位損失を提案し、その多クラス順位評価指標とのベイジアン一貫性を証明しました。広範な実験により、私たちの方法は不完全ラベリングの場合において従来のベースラインに対して約14ポイントF1値が向上することが示されました。さらに、完全監督および極度に未ラベリング設定の両方で従来の最先端結果を超えることが確認されています。