CNN/DailyMail 新闻文章数据集

日期

5 个月前

大小

503.3 MB

机构

Kaggle

发布地址

www.kaggle.com

该数据集包含 CNN 和 Daily Mail 记者撰写的 30 多万篇独特新闻文章。当前版本支持提取和抽象摘要,但原始版本是为机器阅读和理解以及抽象问答而创建的。该数据集的目的是帮助开发能够用一两句话概括长段落文本的模型,此任务对于高效呈现大量文本的信息非常有用。

数据字段

  • id:包含检索故事的 URL 的十六进制格式的 SHA1 哈希值的字符串
  • article:包含新闻文章正文的字符串
  • highlights:包含文章作者撰写的文章亮点的字符串

数据分割

CNN/DailyMail 数据集分为 3 个部分:训练、验证和测试。以下是该数据集 3.0.0 版本的统计数据。

数据集分割拆分中的实例数
Train287,113
Validation13,368
Test11,490

数据集创建

创建历史

1.0.0 版旨在利用大量真实自然语言训练数据支持监督式神经方法进行机器阅读和问答,并发布了约 313,000 篇独特文章和近 100 万个与文章配套的完形填空式问题。 2.0.0 版和 3.0.0 版改变了数据集的结构,以支持摘要而不是问答。 3.0.0 版提供了非匿名版本的数据,而之前的两个版本都经过预处理,用唯一标识符标签替换了命名实体。

源数据

初始数据收集和规范化

数据由新闻文章和突出显示的句子组成。在数据的问答设置中,文章被用作上下文,实体被逐个隐藏在突出显示的句子中,产生完形填空式问题,其中模型的目标是正确猜测上下文中的哪个实体已隐藏在突出显示中。在摘要设置中,突出显示的句子被连接起来以形成文章的摘要。 CNN 文章写于 2007 年 4 月至 2015 年 4 月之间。 DailyMail 文章写于 2010 年 6 月至 2015 年 4 月之间。

原始数据收集的代码可在 https://github.com/deepmind/rc-data 上找到。文章是使用 Wayback Machine 上的 < www.cnn.com>和 <www.dailymail.co.uk> 档案下载的。如果文章超过 2,000 个标记,则不会包含在版本 1.0.0 集合中。

CNN-DailyMail-newspaper.torrent

做种 1

下载中 0

已完成 57

总下载 77

  • CNN-DailyMail-newspaper/
    • README.md
      2.79 KB
    • README.txt
      5.57 KB
      • data/
        • newspaper.zip
          503.3 MB