DuConv 是一个基于电影和明星领域的数据集,包括票房、导演、评论等信息。
该数据集包括 30k 个对话,大约 120k 个对话回合。其中 20k 个对话为训练集,2k 个对话为开发集,8k 个对话用于构建测试样本。对话集和开发集中的每个对话都包含对话目的、背景知识和对话详情。
示例数据:
注:训练集和开发集以 JSON 格式提供,如下所示:
{
"goal": [
[
"START",
" 阳光灿烂的日子",
" 王朔"
],
[
" 王朔",
" 代表作",
" 阳光灿烂的日子"
]
],
"knowledge": [
[
" 阳光灿烂的日子",
" 时光网 短评",
"70 年代 少年 人 的 成长 经历 , 太 过 真实 , 再回首 至于 刺眼 的 日光 灼 目"
],
[
" 阳光灿烂的日子",
" 主演",
" 宁静"
],
[
" 阳光灿烂的日子",
" 上映 时间",
"1994 年 9 月 9 日"
],
[
" 阳光灿烂的日子",
" 类型",
" 剧情"
],
[
" 阳光灿烂的日子",
" 领域",
" 电影"
],
[
" 王朔",
" 评论",
" 才华横溢 !"
],
[
" 王朔",
" 毕业 院校",
" 北京四十四中学"
],
[
" 王朔",
" 主要 成就",
" 第 53 届洛迦诺国际电影节 主 竞赛 单元 - 金豹奖"
],
[
" 王朔",
" 性别",
" 男"
],
[
" 王朔",
" 职业",
" 编剧"
],
[
" 王朔",
" 领域",
" 明星"
],
[
" 阳光灿烂的日子",
" 是否 上映",
" 已 上映"
],
[
" 阳光灿烂的日子",
" 时光网 短评",
" 有点 西西里 的 感觉 。"
],
[
" 阳光灿烂的日子",
" 时光网 评分",
"8.5"
],
[
" 阳光灿烂的日子",
" 导演",
" 姜文"
]
],
"conversation": [
" 我 发现 姜文 的 电影 产量 不 高 , 但是 质量 都 挺 高 的 。",
" 同感 , 那 你 觉得 你 印象 最深 的 一部 姜文 的 作品 是 什么 ?",
" 阳光灿烂的日子 吧 , 有点 西西里 的 感觉 。",
" 我 也 觉得 这部 电影 不错 !",
" 嗯 呀 , 它 是 一个 年代 的 缩影 吧 。",
" 对 呀 , 可能 姜文 只是 把 他 自己 经历 的 给 拍 了 出来 吧 。",
" 但是 里面 那位 主演 真 的 是 才华横溢 。",
" 你 说 的 是 哪 一位 ?"
" 王朔 啊 , 是 北京四十四中学 毕业 的 那位 。"
]
}
注:测试集也为 JSON 格式,如下所示
{
"goal": [
[
"START",
" 阳光灿烂的日子",
" 王朔"
],
[
" 王朔",
" 代表作",
" 阳光灿烂的日子"
]
],
"knowledge": [
[
" 阳光灿烂的日子",
" 时光网 短评",
"70 年代 少年 人 的 成长 经历 , 太 过 真实 , 再回首 至于 刺眼 的 日光 灼 目"
],
[
" 阳光灿烂的日子",
" 主演",
" 宁静"
],
[
" 阳光灿烂的日子",
" 上映 时间",
"1994 年 9 月 9 日"
],
[
" 阳光灿烂的日子",
" 类型",
" 剧情"
],
[
" 阳光灿烂的日子",
" 领域",
" 电影"
],
[
" 王朔",
" 评论",
" 才华横溢 !"
],
[
" 王朔",
" 毕业 院校",
" 北京四十四中学"
],
[
" 王朔",
" 主要 成就",
" 第 53 届洛迦诺国际电影节 主 竞赛 单元 - 金豹奖"
],
[
" 王朔",
" 性别",
" 男"
],
[
" 王朔",
" 职业",
" 编剧"
],
[
" 王朔",
" 领域",
" 明星"
],
[
" 阳光灿烂的日子",
" 是否 上映",
" 已 上映"
],
[
" 阳光灿烂的日子",
" 时光网 短评",
" 有点 西西里 的 感觉 。"
],
[
" 阳光灿烂的日子",
" 时光网 评分",
"8.5"
],
[
" 阳光灿烂的日子",
" 导演",
" 姜文"
]
],
"history": [
" 我 发现 姜文 的 电影 产量 不 高 , 但是 质量 都 挺 高 的 。",
" 同感 , 那 你 觉得 你 印象 最深 的 一部 姜文 的 作品 是 什么 ?"
],
"response": " 阳光灿烂的日子 吧 , 有点 西西里 的 感觉 。"
}
2 做种
0 下载
191 已完成
- DuConv/README.md 6.53 KB
- DuConv/README.txt 6.53 KB
- DuConv/data/dev.txt.gz 721.31 KB
- DuConv/data/test_1.txt.gz 1.42 MB
- DuConv/data/test_2.txt.gz 2.63 MB
- DuConv/data/train.txt.gz 6.99 MB