6ヶ月前

自然言語処理

ディープラーニング

ドキュメント理解

自然言語処理

Yong-Suk Choi Hyeong-Ryeol Baek

概要

文単位の関係抽出（Relation Extraction: RE）は、データ分布が著しく不均衡な特徴を持つ。具体的には、約80％のデータが「関係なし」（ネガティブ）とラベル付けされており、ポジティブラベルの中には少数クラス（Minority Class: MC）が存在する。さらに、一部のMCインスタンスには誤ったラベルが付与されているという問題も存在する。このような課題、すなわちラベルノイズと少数クラスデータの不足により、多くのモデルはMCを適切に学習できず、MCに対するF1スコアがゼロまたは極めて低くなる傾向にある。これまでの研究では、むしろマイクロ平均F1スコアに焦点が当てられており、少数クラスに対する十分な対応がなされていない。MCに対する高い誤分類誤差を是正するために、本研究では（1）少数クラス注目モジュール（Minority Class Attention Module: MCAM）、および（2）REに特化した効果的なオーギュメンテーション手法を導入する。MCAMはMCインスタンスに対する信頼度スコアを計算し、信頼性の高いものを選別してオーギュメンテーションに活用するとともに、モデル学習過程においてMCの情報を統合する。実験の結果、本手法はTACREDにおいて最先端のF1スコアを達成するとともに、少数クラスに対するF1スコアを著しく向上させることを確認した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

自然言語処理

ディープラーニング

ドキュメント理解

自然言語処理

Yong-Suk Choi Hyeong-Ryeol Baek

概要

文単位の関係抽出（Relation Extraction: RE）は、データ分布が著しく不均衡な特徴を持つ。具体的には、約80％のデータが「関係なし」（ネガティブ）とラベル付けされており、ポジティブラベルの中には少数クラス（Minority Class: MC）が存在する。さらに、一部のMCインスタンスには誤ったラベルが付与されているという問題も存在する。このような課題、すなわちラベルノイズと少数クラスデータの不足により、多くのモデルはMCを適切に学習できず、MCに対するF1スコアがゼロまたは極めて低くなる傾向にある。これまでの研究では、むしろマイクロ平均F1スコアに焦点が当てられており、少数クラスに対する十分な対応がなされていない。MCに対する高い誤分類誤差を是正するために、本研究では（1）少数クラス注目モジュール（Minority Class Attention Module: MCAM）、および（2）REに特化した効果的なオーギュメンテーション手法を導入する。MCAMはMCインスタンスに対する信頼度スコアを計算し、信頼性の高いものを選別してオーギュメンテーションに活用するとともに、モデル学習過程においてMCの情報を統合する。実験の結果、本手法はTACREDにおいて最先端のF1スコアを達成するとともに、少数クラスに対するF1スコアを著しく向上させることを確認した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

文書レベル関係抽出におけるターゲット少数クラス予測の向上 | 記事 | HyperAI超神経