FewJoint の小規模サンプル共同学習ベンチマーク データ セット
FewJoint ベンチマーク データ セットは、実際のユーザー コーパスと、iFlytek AIUI オープン プラットフォーム上で専門家が構築したコーパスから取得されます (比率は約 3:7)。これには 59 の実際のフィールドが含まれており、フィールド数が最も多い対話データ セットの 1 つです。 。このデータセットはシミュレーション ドメインを構築する必要性を回避し、小規模なサンプルやメタ学習方法に適しています。
このデータセットに基づいて、研究チームはまた、SMP 2020の少数サンプルの対話言語理解評価を組織しました。人為的に構築された単純なテキスト分類タスクを使用したこれまでの NLP 小規模サンプル研究とは異なり、研究チームは 59 の実際のドメインを含む会話言語理解タスクを導入しました。単純なテキスト分類に加えて、SLU タスクはシーケンスのラベル付けとマルチタスクの共同学習もカバーします。これらのより高度で現実的なタスクにより、FewJoint は、既存の単純なテキスト分類タスクよりも現実世界の NLP タスクの難しさと複雑さをより適切に反映できます。
FewJoint ベンチマーク データ セットには主に次の特徴があります。
- 59 個の実ドメインが含まれており、現在最も多くのドメインを備えた対話データセットの 1 つであり、模擬ドメインの構築を回避でき、小規模なサンプルやメタ学習手法の評価に非常に適しています。
- これは実際の NLP タスクの難しさを反映しており、テキスト分類などの単純な人為的なタスクのみを実行する現在のフューショット NLP の制限を打ち破ります。
- 完全にオープンで、使いやすい NLP フューショット学習ベンチマークを提供します。
- NLP の数ショット学習ツール プラットフォームをサポートする MetaDialog が提供されており、実験を容易にして迅速に実施できます。
データセットの構築
研究チームは、iFlytek AIUI オープン プラットフォーム上の 59 個の実際の会話ロボット API を研究領域として選択しました。ユーザー コーパスのソースには主に 2 つの部分が含まれています。
(1) プラットフォームの実際のユーザーからのコーパス
(2) ドメイン専門家が手作業で構築したコーパス
2 つのデータ ソースのデータ比率は約 3:7 です。各データにユーザーの意図とセマンティック スロットをラベル付けした後、研究チームは 59 のドメインすべてを 3 つの部分 (45 のトレーニング ドメイン、5 つの開発ドメイン、9 つのテスト ドメイン) に分割しました。テストおよび開発ドメインのデータをスモールショット学習形式に再構築します。各ドメインには、手動で構築された K ショット サポート セット (サポート セット) と、残りの他のデータで構成されるクエリ セット (クエリ セット) が含まれています。