Discordで議論

1年前

マルチタスク学習

自然言語処理

データセット

Lingjia Deng Sz-Rung Shiang Jonathan May Alexander Spangher

概要

ラベル付けスキーマは時間とともに進化するため、わずかな違いさえも、古いスキーマに従って作成されたデータセットを無効にする可能性がある。これにより、研究者が過去のアノテーション作業を基盤に新たな研究を進めることができず、特にディスコース学習分野では、クラスの不均衡が深刻な小さなデータセットが多数存在する状況が生じている。本研究では、類似および多様なドメインからのディスコースデータセットをマルチタスク学習アプローチによって統合することで、ディスコース分類の性能を向上させられることを示す。特に、最近公開された中で最も規模の大きいディスコースデータセットの一つであるNewsDiscourseデータセットにおいて、現在の最先端ベンチマークに対してマイクロF1スコアで4.9%の向上を達成した。この改善は、タスク間のラベル相関が、代表度の低いクラスの性能向上に寄与したことに起因している。さらに、NLPにおけるリソース不足問題に対処するために提案された追加的手法について広範なレビューを行い、本研究の設定においては、これらの手法のいずれも分類精度の向上に寄与していないことを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Discordで議論

1年前

マルチタスク学習

自然言語処理

データセット

Lingjia Deng Sz-Rung Shiang Jonathan May Alexander Spangher

概要

ラベル付けスキーマは時間とともに進化するため、わずかな違いさえも、古いスキーマに従って作成されたデータセットを無効にする可能性がある。これにより、研究者が過去のアノテーション作業を基盤に新たな研究を進めることができず、特にディスコース学習分野では、クラスの不均衡が深刻な小さなデータセットが多数存在する状況が生じている。本研究では、類似および多様なドメインからのディスコースデータセットをマルチタスク学習アプローチによって統合することで、ディスコース分類の性能を向上させられることを示す。特に、最近公開された中で最も規模の大きいディスコースデータセットの一つであるNewsDiscourseデータセットにおいて、現在の最先端ベンチマークに対してマイクロF1スコアで4.9%の向上を達成した。この改善は、タスク間のラベル相関が、代表度の低いクラスの性能向上に寄与したことに起因している。さらに、NLPにおけるリソース不足問題に対処するために提案された追加的手法について広範なレビューを行い、本研究の設定においては、これらの手法のいずれも分類精度の向上に寄与していないことを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

多タスク半教師付き学習によるクラス不均衡なディスコース分類 | 記事 | HyperAI超神経