CNN/DailyMail ニュース記事データセット

日期

5 个月前

大小

503.3 MB

机构

カグル

发布地址

www.kaggle.com

このデータセットには、CNN と Daily Mail のジャーナリストによって書かれた 300,000 件を超える独自のニュース記事が含まれています。現在のバージョンは抽出と要約の要約をサポートしていますが、元のバージョンは機械による読み取りと理解、および抽象的な質問への回答を目的として作成されました。このデータセットの目的は、テキストの長い段落を 1 つまたは 2 つの文に要約できるモデルの開発を支援することです。これは、大量のテキストから情報を効率的に提示するのに役立つタスクです。

データフィールド

  • id: ストーリーを取得する URL の 16 進数形式の SHA1 ハッシュを含む文字列
  • article: ニュース記事のテキストを含む文字列
  • highlights: 記事著者が書いた記事のハイライトを含む文字列

データ分割

CNN/DailyMail データセットは、トレーニング、検証、テストの 3 つの部分に分かれています。以下は、このデータセットのバージョン 3.0.0 の統計です。

データセットのセグメンテーション分割内のインスタンスの数
電車287,113
検証13,368
テスト11,490

データセットの作成

履歴を作成する

バージョン 1.0.0 は、大量の実際の自然言語トレーニング データを活用して、機械読解と質問応答のための教師ありニューラル手法をサポートすることを目的としており、約 313,000 のユニークな記事と、記事に付随する 100 万近くのクローズ スタイルの質問をリリースしました。バージョン 2.0.0 と 3.0.0 では、質問と回答の代わりに概要をサポートするようにデータセットの構造が変更されました。バージョン 3.0.0 はデータの非匿名バージョンを提供しますが、以前の 2 つのバージョンは名前付きエンティティを一意の識別子タグで置き換えるために前処理されていました。

ソースデータ

初期データ収集と正規化

データはニュース記事とハイライト文で構成されます。データの質問と回答の設定では、記事がコンテキストとして使用され、強調表示された文の中にエンティティが 1 つずつ隠されます。その結果、モデルの目標はコンテキスト内のどのエンティティが正しく推測されるかというクローズ スタイルの質問になります。ハイライトの中に隠れています。要約設定では、ハイライトされた文が連結されて記事の要約が形成されます。 CNN の記事は 2007 年 4 月から 2015 年 4 月の間に書かれました。 DailyMail の記事は、2010 年 6 月から 2015 年 4 月の間に書かれました。

生データ収集のコードは次の場所で入手できます。 https://github.com/deepmind/rc-data で見つかりました。記事はウェイバックマシンを使用して公開されました www.cnn.com>そしてwww.dailymail.co.uk> ファイルのダウンロード。 2,000 を超えるタグを持つ記事は、バージョン 1.0.0 コレクションには含まれません。

CNN-DailyMail-newspaper.torrent

做种 2

下载中 0

已完成 56

总下载 77

  • CNN-DailyMail-newspaper/
    • README.md
      2.79 KB
    • README.txt
      5.57 KB
      • data/
        • newspaper.zip
          503.3 MB