HyperAI

DuConv-Dialogdatensatz

DuConv ist ein Datensatz, der auf dem Film- und Star-Bereich basiert und Informationen wie Einspielergebnisse, Regisseur und Kritiken enthält.

Der Datensatz umfasst 30.000 Dialoge und ungefähr 120.000 Dialogwendungen. Davon werden 20.000 Dialoge als Trainingssätze, 2.000 Dialoge als Entwicklungssätze und 8.000 Dialoge zum Erstellen von Testbeispielen verwendet. Jeder Dialog im Dialogsatz und im Entwicklungssatz enthält den Dialogzweck, Hintergrundwissen und Dialogdetails.

Beispieldaten:

Hinweis: Das Trainingsset und das Entwicklungsset werden wie folgt im JSON-Format bereitgestellt:

{
  "goal": [
    [
      "START",
      "阳光灿烂的日子",
      "王朔"
    ],
    [
      "王朔",
      "代表作",
      "阳光灿烂的日子"
    ]
  ],
  "knowledge": [
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "70 年代 少年 人 的 成长 经历 , 太 过 真实 , 再回首 至于 刺眼 的 日光 灼 目"
    ],
    [
      "阳光灿烂的日子",
      "主演",
      "宁静"
    ],
    [
      "阳光灿烂的日子",
      "上映 时间",
      "1994 年 9 月 9 日"
    ],
    [
      "阳光灿烂的日子",
      "类型",
      "剧情"
    ],
    [
      "阳光灿烂的日子",
      "领域",
      "电影"
    ],
    [
      "王朔",
      "评论",
      "才华横溢 !"
    ],
    [
      "王朔",
      "毕业 院校",
      "北京四十四中学"
    ],
    [
      "王朔",
      "主要 成就",
      "第 53 届洛迦诺国际电影节 主 竞赛 单元 - 金豹奖"
    ],
    [
      "王朔",
      "性别",
      "男"
    ],
    [
      "王朔",
      "职业",
      "编剧"
    ],
    [
      "王朔",
      "领域",
      "明星"
    ],
    [
      "阳光灿烂的日子",
      "是否 上映",
      "已 上映"
    ],
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "有点 西西里 的 感觉 。"
    ],
    [
      "阳光灿烂的日子",
      "时光网 评分",
      "8.5"
    ],
    [
      "阳光灿烂的日子",
      "导演",
      "姜文"
    ]
  ],
  "conversation": [
    "我 发现 姜文 的 电影 产量 不 高 , 但是 质量 都 挺 高 的 。",
    "同感 , 那 你 觉得 你 印象 最深 的 一部 姜文 的 作品 是 什么 ?",
    "阳光灿烂的日子 吧 , 有点 西西里 的 感觉 。",
    "我 也 觉得 这部 电影 不错 !",
    "嗯 呀 , 它 是 一个 年代 的 缩影 吧 。",
    "对 呀 , 可能 姜文 只是 把 他 自己 经历 的 给 拍 了 出来 吧 。",
    "但是 里面 那位 主演 真 的 是 才华横溢 。",
    "你 说 的 是 哪 一位 ?"
    "王朔 啊 , 是 北京四十四中学 毕业 的 那位 。"
  ]
}

Hinweis: Der Testsatz liegt auch im JSON-Format vor, wie unten gezeigt

{
  "goal": [
    [
      "START",
      "阳光灿烂的日子",
      "王朔"
    ],
    [
      "王朔",
      "代表作",
      "阳光灿烂的日子"
    ]
  ],
  "knowledge": [
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "70 年代 少年 人 的 成长 经历 , 太 过 真实 , 再回首 至于 刺眼 的 日光 灼 目"
    ],
    [
      "阳光灿烂的日子",
      "主演",
      "宁静"
    ],
    [
      "阳光灿烂的日子",
      "上映 时间",
      "1994 年 9 月 9 日"
    ],
    [
      "阳光灿烂的日子",
      "类型",
      "剧情"
    ],
    [
      "阳光灿烂的日子",
      "领域",
      "电影"
    ],
    [
      "王朔",
      "评论",
      "才华横溢 !"
    ],
    [
      "王朔",
      "毕业 院校",
      "北京四十四中学"
    ],
    [
      "王朔",
      "主要 成就",
      "第 53 届洛迦诺国际电影节 主 竞赛 单元 - 金豹奖"
    ],
    [
      "王朔",
      "性别",
      "男"
    ],
    [
      "王朔",
      "职业",
      "编剧"
    ],
    [
      "王朔",
      "领域",
      "明星"
    ],
    [
      "阳光灿烂的日子",
      "是否 上映",
      "已 上映"
    ],
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "有点 西西里 的 感觉 。"
    ],
    [
      "阳光灿烂的日子",
      "时光网 评分",
      "8.5"
    ],
    [
      "阳光灿烂的日子",
      "导演",
      "姜文"
    ]
  ],
  "history": [
    "我 发现 姜文 的 电影 产量 不 高 , 但是 质量 都 挺 高 的 。",
    "同感 , 那 你 觉得 你 印象 最深 的 一部 姜文 的 作品 是 什么 ?"
  ],
  "response": "阳光灿烂的日子 吧 , 有点 西西里 的 感觉 。"
}
DuConv.torrent
Seeding 1Herunterladen 1Abgeschlossen 469Gesamtdownloads 562
  • DuConv/
    • README.md
      6.53 KB
    • README.txt
      13.05 KB
      • data/
        • dev.txt.gz
          734.36 KB
        • test_1.txt.gz
          2.13 MB
        • test_2.txt.gz
          4.77 MB
        • train.txt.gz
          11.76 MB