18日前

文書レベル関係抽出におけるターゲット少数クラス予測の向上

{Yong-Suk Choi, Hyeong-Ryeol Baek}
要約

文単位の関係抽出(Relation Extraction: RE)は、データ分布が著しく不均衡な特徴を持つ。具体的には、約80%のデータが「関係なし」(ネガティブ)とラベル付けされており、ポジティブラベルの中には少数クラス(Minority Class: MC)が存在する。さらに、一部のMCインスタンスには誤ったラベルが付与されているという問題も存在する。このような課題、すなわちラベルノイズと少数クラスデータの不足により、多くのモデルはMCを適切に学習できず、MCに対するF1スコアがゼロまたは極めて低くなる傾向にある。これまでの研究では、むしろマイクロ平均F1スコアに焦点が当てられており、少数クラスに対する十分な対応がなされていない。MCに対する高い誤分類誤差を是正するために、本研究では(1)少数クラス注目モジュール(Minority Class Attention Module: MCAM)、および(2)REに特化した効果的なオーギュメンテーション手法を導入する。MCAMはMCインスタンスに対する信頼度スコアを計算し、信頼性の高いものを選別してオーギュメンテーションに活用するとともに、モデル学習過程においてMCの情報を統合する。実験の結果、本手法はTACREDにおいて最先端のF1スコアを達成するとともに、少数クラスに対するF1スコアを著しく向上させることを確認した。