日付

2年前

サイズ

751.82 KB

データセット構成

公開URL

mp.weixin.qq.com

Paper URL

arxiv.org

タグ

自然言語処理

FewJoint ベンチマークデータセットは、実際のユーザーコーパスと、iFlytek AIUI オープンプラットフォーム上で専門家が構築したコーパスから取得されます (比率は約 3:7)。これには 59 の実際のフィールドが含まれており、フィールド数が最も多い対話データセットの 1 つです。。このデータセットはシミュレーションドメインを構築する必要性を回避し、小規模なサンプルやメタ学習方法に適しています。このデータセットに基づいて、研究チームはまた、SMP 2020の少数サンプルの対話言語理解評価を組織しました。人為的に構築された単純なテキスト分類タスクを使用したこれまでの NLP 小規模サンプル研究とは異なり、研究チームは 59 の実際のドメインを含む会話言語理解タスクを導入しました。単純なテキスト分類に加えて、SLU タスクはシーケンスのラベル付けとマルチタスクの共同学習もカバーします。これらのより高度で現実的なタスクにより、FewJoint は、既存の単純なテキスト分類タスクよりも現実世界の NLP タスクの難しさと複雑さをより適切に反映できます。 FewJoint ベンチマークデータセットには主に次の特徴があります。

59 個の実ドメインが含まれており、現在最も多くのドメインを備えた対話データセットの 1 つであり、模擬ドメインの構築を回避でき、小規模なサンプルやメタ学習手法の評価に非常に適しています。
これは実際の NLP タスクの難しさを反映しており、テキスト分類などの単純な人為的なタスクのみを実行する現在のフューショット NLP の制限を打ち破ります。
完全にオープンで、使いやすい NLP フューショット学習ベンチマークを提供します。
NLP の数ショット学習ツールプラットフォームをサポートする MetaDialog が提供されており、実験を容易にして迅速に実施できます。 データセットの構築 研究チームは、iFlytek AIUI オープンプラットフォーム上の 59 個の実際の会話ロボット API を研究領域として選択しました。ユーザーコーパスのソースには主に 2 つの部分が含まれています。 (1) プラットフォームの実際のユーザーからのコーパス (2) ドメイン専門家が手作業で構築したコーパス 2 つのデータソースのデータ比率は約 3:7 です。各データにユーザーの意図とセマンティックスロットをラベル付けした後、研究チームは 59 のドメインすべてを 3 つの部分 (45 のトレーニングドメイン、5 つの開発ドメイン、9 つのテストドメイン) に分割しました。テストおよび開発ドメインのデータをスモールショット学習形式に再構築します。各ドメインには、手動で構築された K ショットサポートセット (サポートセット) と、残りの他のデータで構成されるクエリセット (クエリセット) が含まれています。

FewJoint.torrent

シーディング 2ダウンロード中 0完了 287総ダウンロード数 637

FewJoint/
- README.md
  3.45 KB
- README.txt
  6.9 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

2年前

サイズ

751.82 KB

データセット構成

公開URL

mp.weixin.qq.com

Paper URL

arxiv.org

タグ

自然言語処理

59 個の実ドメインが含まれており、現在最も多くのドメインを備えた対話データセットの 1 つであり、模擬ドメインの構築を回避でき、小規模なサンプルやメタ学習手法の評価に非常に適しています。
これは実際の NLP タスクの難しさを反映しており、テキスト分類などの単純な人為的なタスクのみを実行する現在のフューショット NLP の制限を打ち破ります。
完全にオープンで、使いやすい NLP フューショット学習ベンチマークを提供します。
NLP の数ショット学習ツールプラットフォームをサポートする MetaDialog が提供されており、実験を容易にして迅速に実施できます。 データセットの構築 研究チームは、iFlytek AIUI オープンプラットフォーム上の 59 個の実際の会話ロボット API を研究領域として選択しました。ユーザーコーパスのソースには主に 2 つの部分が含まれています。 (1) プラットフォームの実際のユーザーからのコーパス (2) ドメイン専門家が手作業で構築したコーパス 2 つのデータソースのデータ比率は約 3:7 です。各データにユーザーの意図とセマンティックスロットをラベル付けした後、研究チームは 59 のドメインすべてを 3 つの部分 (45 のトレーニングドメイン、5 つの開発ドメイン、9 つのテストドメイン) に分割しました。テストおよび開発ドメインのデータをスモールショット学習形式に再構築します。各ドメインには、手動で構築された K ショットサポートセット (サポートセット) と、残りの他のデータで構成されるクエリセット (クエリセット) が含まれています。

FewJoint.torrent

シーディング 2ダウンロード中 0完了 287総ダウンロード数 637

FewJoint/
- README.md
  3.45 KB
- README.txt
  6.9 KB

DRACOクロスドメイン深層研究ベンチマークデータセット

2ヶ月前

肺がん臨床データセット

2ヶ月前

Open-RL推論問題データセット

4ヶ月前

CL-bench コンテキスト学習評価ベンチマークデータセット

4ヶ月前

デリー大気汚染AQIデータセット

5ヶ月前

GroundingME 複雑シーン理解評価データセット

6ヶ月前

MCIFマルチモーダルクロスランゲージ指導データセット

6ヶ月前

TxT360-3efforts マルチタスク推論データセット

6ヶ月前

LongBench-Pro ロングコンテキスト包括的評価データセット

6ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

FewJoint の小規模サンプル共同学習ベンチマーク データ セット

AIでAIを構築

HyperAI Newsletters

Command Palette

FewJoint の小規模サンプル共同学習ベンチマーク データ セット

関連データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

肺がん臨床データセット

Open-RL推論問題データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

デリー大気汚染AQIデータセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

FewJoint の小規模サンプル共同学習ベンチマーク データ セット

関連データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

肺がん臨床データセット

Open-RL推論問題データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

デリー大気汚染AQIデータセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

肺がん臨床データセット

Open-RL推論問題データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

デリー大気汚染AQIデータセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

肺がん臨床データセット

Open-RL推論問題データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

デリー大気汚染AQIデータセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

FewJoint の小規模サンプル共同学習ベンチマークデータセット

FewJoint の小規模サンプル共同学習ベンチマークデータセット

FewJoint の小規模サンプル共同学習ベンチマークデータセット