日期

2 年前

大小

751.82 KB

数据集组织

发布 URL

mp.weixin.qq.com

论文 URL

arxiv.org

标签

自然语言处理

FewJoint 基准数据集是来自于讯飞 AIUI 开放平台上真实用户语料和专家构造的语料（比例约为 3：7），包含 59 个真实领域，目前域最多的对话数据集之一。该数据集可以避免构造模拟域，非常适合小样本和元学习方法。基于该数据集，研究团队还组织了 SMP 2020 的小样本对话语言理解评测。不同于过往的 NLP 小样本研究使用人为构造的简单文本分类任务，研究团队引入了包含 59 个真实领域的对话语言理解任务。 SLU 任务在简单文本分类之外，还涵盖了序列标注与多任务联合学习。这些更高级且真实的任务使得 FewJoint 能比现有的简单文本分类任务更好地反映真实世界 NLP 任务的难度和复杂性。 FewJoint 基准数据集主要有如下几个特点：

包含 59 个真实 domain，目前 domain 最多的对话数据集之一，可以避免构造模拟 domain，非常适合小样本和元学习方法评测。
反映真实 NLP 任务难度，打破目前 Few-shot NLP 只做文本分类等简单人造任务的局限性。
完全公开，提供易用的 NLP Few-shot Learning Benchmark 。
提供配套 NLP few-shot learning 工具平台——MetaDialog，方便快速开展实验。 数据集构造 研究团队选取了讯飞 AIUI 开放平台上的 59 个真实对话机器人 API 作为研究领域。用户语料的来源主要包括两部分：（1）来自平台真实用户语料（2）领域专家人工构造的语料两个数据来源的数据比例大概为 3：7 。在对每一条数据进行用户意图和语义槽标注后，研究团队将所有 59 个 domain 分成 3 个部分：45 个训练 domain，5 个开发 domain，9 个测试 domain 。将测试和开发 domain 数据重构为小样本学习形式：每个 domain 包含一个人工构造的 K-shot 支持集（support set），以及一个由剩余其他数据组成的查询集（query set）。

FewJoint.torrent

做种 2正在下载 0已完成 287总下载量 637

FewJoint/
- README.md
  3.45 KB
- README.txt
  6.9 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

751.82 KB

数据集组织

发布 URL

mp.weixin.qq.com

论文 URL

arxiv.org

标签

自然语言处理

包含 59 个真实 domain，目前 domain 最多的对话数据集之一，可以避免构造模拟 domain，非常适合小样本和元学习方法评测。
反映真实 NLP 任务难度，打破目前 Few-shot NLP 只做文本分类等简单人造任务的局限性。
完全公开，提供易用的 NLP Few-shot Learning Benchmark 。
提供配套 NLP few-shot learning 工具平台——MetaDialog，方便快速开展实验。 数据集构造 研究团队选取了讯飞 AIUI 开放平台上的 59 个真实对话机器人 API 作为研究领域。用户语料的来源主要包括两部分：（1）来自平台真实用户语料（2）领域专家人工构造的语料两个数据来源的数据比例大概为 3：7 。在对每一条数据进行用户意图和语义槽标注后，研究团队将所有 59 个 domain 分成 3 个部分：45 个训练 domain，5 个开发 domain，9 个测试 domain 。将测试和开发 domain 数据重构为小样本学习形式：每个 domain 包含一个人工构造的 K-shot 支持集（support set），以及一个由剩余其他数据组成的查询集（query set）。

FewJoint.torrent

做种 2正在下载 0已完成 287总下载量 637

FewJoint/
- README.md
  3.45 KB
- README.txt
  6.9 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

DRACO 跨领域深度研究基准数据集

2 个月前

Lung Cancer Clinical 肺癌临床数据集

3 个月前

Open-RL 推理问题数据集

4 个月前

CL-bench 上下文学习评估基准数据集

4 个月前

Delhi Pollution AQI 德里空气质量数据集

5 个月前

GroundingME 复杂场景理解评测数据集

9 天前

MCIF 多模态跨语言指令跟随数据集

6 个月前

TxT360-3efforts 多任务推理数据集

9 天前

LongBench-Pro 长上下文综合评测数据集

9 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

FewJoint 小样本联合学习基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

FewJoint 小样本联合学习基准数据集

相关数据集

DRACO 跨领域深度研究基准数据集

Lung Cancer Clinical 肺癌临床数据集

Open-RL 推理问题数据集

CL-bench 上下文学习评估基准数据集

Delhi Pollution AQI 德里空气质量数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

FewJoint 小样本联合学习基准数据集

相关数据集

DRACO 跨领域深度研究基准数据集

Lung Cancer Clinical 肺癌临床数据集

Open-RL 推理问题数据集

CL-bench 上下文学习评估基准数据集

Delhi Pollution AQI 德里空气质量数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

DRACO 跨领域深度研究基准数据集

Lung Cancer Clinical 肺癌临床数据集

Open-RL 推理问题数据集

CL-bench 上下文学习评估基准数据集

Delhi Pollution AQI 德里空气质量数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

相关数据集

DRACO 跨领域深度研究基准数据集

Lung Cancer Clinical 肺癌临床数据集

Open-RL 推理问题数据集

CL-bench 上下文学习评估基准数据集

Delhi Pollution AQI 德里空气质量数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集