FewJoint ベンチマーク データ セットは、実際のユーザー コーパスと、iFlytek AIUI オープン プラットフォーム上で専門家が構築したコーパスから取得されます (比率は約 3:7)。これには 59 の実際のフィールドが含まれており、フィールド数が最も多い対話データ セットの 1 つです。 。このデータセットはシミュレーション ドメインを構築する必要性を回避し、小規模なサンプルやメタ学習方法に適しています。
このデータセットに基づいて、研究チームはまた、SMP 2020の少数サンプルの対話言語理解評価を組織しました。人為的に構築された単純なテキスト分類タスクを使用したこれまでの NLP 小規模サンプル研究とは異なり、研究チームは 59 の実際のドメインを含む会話言語理解タスクを導入しました。単純なテキスト分類に加えて、SLU タスクはシーケンスのラベル付けとマルチタスクの共同学習もカバーします。これらのより高度で現実的なタスクにより、FewJoint は、既存の単純なテキスト分類タスクよりも現実世界の NLP タスクの難しさと複雑さをより適切に反映できます。
FewJoint ベンチマーク データ セットには主に次の特徴があります。
データセットの構築
研究チームは、iFlytek AIUI オープン プラットフォーム上の 59 個の実際の会話ロボット API を研究領域として選択しました。ユーザー コーパスのソースには主に 2 つの部分が含まれています。
(1) プラットフォームの実際のユーザーからのコーパス
(2) ドメイン専門家が手作業で構築したコーパス
2 つのデータ ソースのデータ比率は約 3:7 です。各データにユーザーの意図とセマンティック スロットをラベル付けした後、研究チームは 59 のドメインすべてを 3 つの部分 (45 のトレーニング ドメイン、5 つの開発ドメイン、9 つのテスト ドメイン) に分割しました。テストおよび開発ドメインのデータをスモールショット学習形式に再構築します。各ドメインには、手動で構築された K ショット サポート セット (サポート セット) と、残りの他のデータで構成されるクエリ セット (クエリ セット) が含まれています。
做种 1
下载中 0
已完成 82
总下载 325