FewJoint 小样本联合学习基准数据集

日期

10 个月前

大小

751.82 KB

机构

发布地址

mp.weixin.qq.com

FewJoint 基准数据集是来自于讯飞 AIUI 开放平台上真实用户语料和专家构造的语料(比例约为 3:7),包含 59 个真实领域,目前域最多的对话数据集之一。该数据集可以避免构造模拟域,非常适合小样本和元学习方法。

基于该数据集,研究团队还组织了 SMP 2020 的小样本对话语言理解评测。不同于过往的 NLP 小样本研究使用人为构造的简单文本分类任务,研究团队引入了包含 59 个真实领域的对话语言理解任务。 SLU 任务在简单文本分类之外,还涵盖了序列标注与多任务联合学习。这些更高级且真实的任务使得 FewJoint 能比现有的简单文本分类任务更好地反映真实世界 NLP 任务的难度和复杂性。

FewJoint 基准数据集主要有如下几个特点:

  • 包含 59 个真实 domain,目前 domain 最多的对话数据集之一,可以避免构造模拟 domain,非常适合小样本和元学习方法评测。
  • 反映真实 NLP 任务难度,打破目前 Few-shot NLP 只做文本分类等简单人造任务的局限性。
  • 完全公开,提供易用的 NLP Few-shot Learning Benchmark 。
  • 提供配套 NLP few-shot learning 工具平台——MetaDialog,方便快速开展实验。

数据集构造

研究团队选取了讯飞 AIUI 开放平台上的 59 个真实对话机器人 API 作为研究领域。用户语料的来源主要包括两部分:

(1)来自平台真实用户语料

(2)领域专家人工构造的语料

两个数据来源的数据比例大概为 3:7 。在对每一条数据进行用户意图和语义槽标注后,研究团队将所有 59 个 domain 分成 3 个部分:45 个训练 domain,5 个开发 domain,9 个测试 domain 。将测试和开发 domain 数据重构为小样本学习形式:每个 domain 包含一个人工构造的 K-shot 支持集(support set),以及一个由剩余其他数据组成的查询集(query set)。

FewJoint.torrent

做种 1

下载中 1

已完成 77

总下载 321

  • FewJoint/
    • README.md
      3.45 KB
    • README.txt
      6.9 KB
      • data/
        • FewJoint.zip
          751.82 KB