HyperAIHyperAI

Command Palette

Search for a command to run...

DuConv-Dialogdatensatz

Date

vor 3 Jahren

Size

11.76 MB

Organization

Baidu

Publish URL

ai.baidu.com

License

Non-Commercial

DuConv ist ein Datensatz, der auf dem Film- und Star-Bereich basiert und Informationen wie Einspielergebnisse, Regisseur und Kritiken enthält.

Der Datensatz umfasst 30.000 Dialoge und ungefähr 120.000 Dialogwendungen. Davon werden 20.000 Dialoge als Trainingssätze, 2.000 Dialoge als Entwicklungssätze und 8.000 Dialoge zum Erstellen von Testbeispielen verwendet. Jeder Dialog im Dialogsatz und im Entwicklungssatz enthält den Dialogzweck, Hintergrundwissen und Dialogdetails.

Beispieldaten:

Hinweis: Das Trainingsset und das Entwicklungsset werden wie folgt im JSON-Format bereitgestellt:

{
  "goal": [
    [
      "START",
      "阳光灿烂的日子",
      "王朔"
    ],
    [
      "王朔",
      "代表作",
      "阳光灿烂的日子"
    ]
  ],
  "knowledge": [
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "70 年代 少年 人 的 成长 经历 , 太 过 真实 , 再回首 至于 刺眼 的 日光 灼 目"
    ],
    [
      "阳光灿烂的日子",
      "主演",
      "宁静"
    ],
    [
      "阳光灿烂的日子",
      "上映 时间",
      "1994 年 9 月 9 日"
    ],
    [
      "阳光灿烂的日子",
      "类型",
      "剧情"
    ],
    [
      "阳光灿烂的日子",
      "领域",
      "电影"
    ],
    [
      "王朔",
      "评论",
      "才华横溢 !"
    ],
    [
      "王朔",
      "毕业 院校",
      "北京四十四中学"
    ],
    [
      "王朔",
      "主要 成就",
      "第 53 届洛迦诺国际电影节 主 竞赛 单元 - 金豹奖"
    ],
    [
      "王朔",
      "性别",
      "男"
    ],
    [
      "王朔",
      "职业",
      "编剧"
    ],
    [
      "王朔",
      "领域",
      "明星"
    ],
    [
      "阳光灿烂的日子",
      "是否 上映",
      "已 上映"
    ],
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "有点 西西里 的 感觉 。"
    ],
    [
      "阳光灿烂的日子",
      "时光网 评分",
      "8.5"
    ],
    [
      "阳光灿烂的日子",
      "导演",
      "姜文"
    ]
  ],
  "conversation": [
    "我 发现 姜文 的 电影 产量 不 高 , 但是 质量 都 挺 高 的 。",
    "同感 , 那 你 觉得 你 印象 最深 的 一部 姜文 的 作品 是 什么 ?",
    "阳光灿烂的日子 吧 , 有点 西西里 的 感觉 。",
    "我 也 觉得 这部 电影 不错 !",
    "嗯 呀 , 它 是 一个 年代 的 缩影 吧 。",
    "对 呀 , 可能 姜文 只是 把 他 自己 经历 的 给 拍 了 出来 吧 。",
    "但是 里面 那位 主演 真 的 是 才华横溢 。",
    "你 说 的 是 哪 一位 ?"
    "王朔 啊 , 是 北京四十四中学 毕业 的 那位 。"
  ]
}

Hinweis: Der Testsatz liegt auch im JSON-Format vor, wie unten gezeigt

{
  "goal": [
    [
      "START",
      "阳光灿烂的日子",
      "王朔"
    ],
    [
      "王朔",
      "代表作",
      "阳光灿烂的日子"
    ]
  ],
  "knowledge": [
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "70 年代 少年 人 的 成长 经历 , 太 过 真实 , 再回首 至于 刺眼 的 日光 灼 目"
    ],
    [
      "阳光灿烂的日子",
      "主演",
      "宁静"
    ],
    [
      "阳光灿烂的日子",
      "上映 时间",
      "1994 年 9 月 9 日"
    ],
    [
      "阳光灿烂的日子",
      "类型",
      "剧情"
    ],
    [
      "阳光灿烂的日子",
      "领域",
      "电影"
    ],
    [
      "王朔",
      "评论",
      "才华横溢 !"
    ],
    [
      "王朔",
      "毕业 院校",
      "北京四十四中学"
    ],
    [
      "王朔",
      "主要 成就",
      "第 53 届洛迦诺国际电影节 主 竞赛 单元 - 金豹奖"
    ],
    [
      "王朔",
      "性别",
      "男"
    ],
    [
      "王朔",
      "职业",
      "编剧"
    ],
    [
      "王朔",
      "领域",
      "明星"
    ],
    [
      "阳光灿烂的日子",
      "是否 上映",
      "已 上映"
    ],
    [
      "阳光灿烂的日子",
      "时光网 短评",
      "有点 西西里 的 感觉 。"
    ],
    [
      "阳光灿烂的日子",
      "时光网 评分",
      "8.5"
    ],
    [
      "阳光灿烂的日子",
      "导演",
      "姜文"
    ]
  ],
  "history": [
    "我 发现 姜文 的 电影 产量 不 高 , 但是 质量 都 挺 高 的 。",
    "同感 , 那 你 觉得 你 印象 最深 的 一部 姜文 的 作品 是 什么 ?"
  ],
  "response": "阳光灿烂的日子 吧 , 有点 西西里 的 感觉 。"
}
DuConv.torrent
Seeding 2Downloading 0Completed 680Total Downloads 739
  • DuConv/
    • README.md
      6.53 KB
    • README.txt
      13.05 KB
      • data/
        • dev.txt.gz
          734.36 KB
        • test_1.txt.gz
          2.13 MB
        • test_2.txt.gz
          4.77 MB
        • train.txt.gz
          11.76 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp