FewJoint 基准数据集是来自于讯飞 AIUI 开放平台上真实用户语料和专家构造的语料(比例约为 3:7),包含 59 个真实领域,目前域最多的对话数据集之一。该数据集可以避免构造模拟域,非常适合小样本和元学习方法。
基于该数据集,研究团队还组织了 SMP 2020 的小样本对话语言理解评测。不同于过往的 NLP 小样本研究使用人为构造的简单文本分类任务,研究团队引入了包含 59 个真实领域的对话语言理解任务。 SLU 任务在简单文本分类之外,还涵盖了序列标注与多任务联合学习。这些更高级且真实的任务使得 FewJoint 能比现有的简单文本分类任务更好地反映真实世界 NLP 任务的难度和复杂性。
FewJoint 基准数据集主要有如下几个特点:
数据集构造
研究团队选取了讯飞 AIUI 开放平台上的 59 个真实对话机器人 API 作为研究领域。用户语料的来源主要包括两部分:
(1)来自平台真实用户语料
(2)领域专家人工构造的语料
两个数据来源的数据比例大概为 3:7 。在对每一条数据进行用户意图和语义槽标注后,研究团队将所有 59 个 domain 分成 3 个部分:45 个训练 domain,5 个开发 domain,9 个测试 domain 。将测试和开发 domain 数据重构为小样本学习形式:每个 domain 包含一个人工构造的 K-shot 支持集(support set),以及一个由剩余其他数据组成的查询集(query set)。
做种 1
下载中 1
已完成 77
总下载 321