HyperAI

DuConv Dialogue Dataset

DuConv is a dataset based on the movie and star domain, including information such as box office, director, and reviews.

The dataset includes 30k dialogues and about 120k dialogue turns. 20k dialogues are for training, 2k dialogues are for development, and 8k dialogues are used to construct test samples. Each dialogue in the dialogue and development sets contains the purpose of the dialogue, background knowledge, and dialogue details.

Example data:

Note: The training set and development set are provided in JSON format as follows:

{
  "goal": [
    [
      "START",
      "阳光灿烂的日子",
      "王朔"
    ],
    [
      "王朔",
      "代表作",
      "阳光灿烂的日子"
    ]
  ],
  "knowledge": [
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "70 年代 少年 人 的 成长 经历 , 太 过 真实 , 再回首 至于 刺眼 的 日光 灼 目"
    ],
    [
      "阳光灿烂的日子",
      "主演",
      "宁静"
    ],
    [
      "阳光灿烂的日子",
      "上映 时间",
      "1994 年 9 月 9 日"
    ],
    [
      "阳光灿烂的日子",
      "类型",
      "剧情"
    ],
    [
      "阳光灿烂的日子",
      "领域",
      "电影"
    ],
    [
      "王朔",
      "评论",
      "才华横溢 !"
    ],
    [
      "王朔",
      "毕业 院校",
      "北京四十四中学"
    ],
    [
      "王朔",
      "主要 成就",
      "第 53 届洛迦诺国际电影节 主 竞赛 单元 - 金豹奖"
    ],
    [
      "王朔",
      "性别",
      "男"
    ],
    [
      "王朔",
      "职业",
      "编剧"
    ],
    [
      "王朔",
      "领域",
      "明星"
    ],
    [
      "阳光灿烂的日子",
      "是否 上映",
      "已 上映"
    ],
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "有点 西西里 的 感觉 。"
    ],
    [
      "阳光灿烂的日子",
      "时光网 评分",
      "8.5"
    ],
    [
      "阳光灿烂的日子",
      "导演",
      "姜文"
    ]
  ],
  "conversation": [
    "我 发现 姜文 的 电影 产量 不 高 , 但是 质量 都 挺 高 的 。",
    "同感 , 那 你 觉得 你 印象 最深 的 一部 姜文 的 作品 是 什么 ?",
    "阳光灿烂的日子 吧 , 有点 西西里 的 感觉 。",
    "我 也 觉得 这部 电影 不错 !",
    "嗯 呀 , 它 是 一个 年代 的 缩影 吧 。",
    "对 呀 , 可能 姜文 只是 把 他 自己 经历 的 给 拍 了 出来 吧 。",
    "但是 里面 那位 主演 真 的 是 才华横溢 。",
    "你 说 的 是 哪 一位 ?"
    "王朔 啊 , 是 北京四十四中学 毕业 的 那位 。"
  ]
}

Note: The test set is also in JSON format, as shown below

{
  "goal": [
    [
      "START",
      "阳光灿烂的日子",
      "王朔"
    ],
    [
      "王朔",
      "代表作",
      "阳光灿烂的日子"
    ]
  ],
  "knowledge": [
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "70 年代 少年 人 的 成长 经历 , 太 过 真实 , 再回首 至于 刺眼 的 日光 灼 目"
    ],
    [
      "阳光灿烂的日子",
      "主演",
      "宁静"
    ],
    [
      "阳光灿烂的日子",
      "上映 时间",
      "1994 年 9 月 9 日"
    ],
    [
      "阳光灿烂的日子",
      "类型",
      "剧情"
    ],
    [
      "阳光灿烂的日子",
      "领域",
      "电影"
    ],
    [
      "王朔",
      "评论",
      "才华横溢 !"
    ],
    [
      "王朔",
      "毕业 院校",
      "北京四十四中学"
    ],
    [
      "王朔",
      "主要 成就",
      "第 53 届洛迦诺国际电影节 主 竞赛 单元 - 金豹奖"
    ],
    [
      "王朔",
      "性别",
      "男"
    ],
    [
      "王朔",
      "职业",
      "编剧"
    ],
    [
      "王朔",
      "领域",
      "明星"
    ],
    [
      "阳光灿烂的日子",
      "是否 上映",
      "已 上映"
    ],
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "有点 西西里 的 感觉 。"
    ],
    [
      "阳光灿烂的日子",
      "时光网 评分",
      "8.5"
    ],
    [
      "阳光灿烂的日子",
      "导演",
      "姜文"
    ]
  ],
  "history": [
    "我 发现 姜文 的 电影 产量 不 高 , 但是 质量 都 挺 高 的 。",
    "同感 , 那 你 觉得 你 印象 最深 的 一部 姜文 的 作品 是 什么 ?"
  ],
  "response": "阳光灿烂的日子 吧 , 有点 西西里 的 感觉 。"
}
DuConv.torrent
Seeding 2Downloading 1Completed 469Total Downloads 562
  • DuConv/
    • README.md
      6.53 KB
    • README.txt
      13.05 KB
      • data/
        • dev.txt.gz
          734.36 KB
        • test_1.txt.gz
          2.13 MB
        • test_2.txt.gz
          4.77 MB
        • train.txt.gz
          11.76 MB