このデータセットには、CNN と Daily Mail のジャーナリストによって書かれた 300,000 件を超える独自のニュース記事が含まれています。現在のバージョンは抽出と要約の要約をサポートしていますが、元のバージョンは機械による読み取りと理解、および抽象的な質問への回答を目的として作成されました。このデータセットの目的は、テキストの長い段落を 1 つまたは 2 つの文に要約できるモデルの開発を支援することです。これは、大量のテキストから情報を効率的に提示するのに役立つタスクです。

データフィールド

id: ストーリーを取得する URL の 16 進数形式の SHA1 ハッシュを含む文字列
article: ニュース記事のテキストを含む文字列
highlights: 記事著者が書いた記事のハイライトを含む文字列

データ分割

CNN/DailyMail データセットは、トレーニング、検証、テストの 3 つの部分に分かれています。以下は、このデータセットのバージョン 3.0.0 の統計です。

データセットのセグメンテーション	分割内のインスタンスの数
電車	287,113
検証	13,368
テスト	11,490

データセットの作成

履歴を作成する

バージョン 1.0.0 は、大量の実際の自然言語トレーニングデータを活用して、機械読解と質問応答のための教師ありニューラル手法をサポートすることを目的としており、約 313,000 のユニークな記事と、記事に付随する 100 万近くのクローズスタイルの質問をリリースしました。バージョン 2.0.0 と 3.0.0 では、質問と回答の代わりに概要をサポートするようにデータセットの構造が変更されました。バージョン 3.0.0 はデータの非匿名バージョンを提供しますが、以前の 2 つのバージョンは名前付きエンティティを一意の識別子タグで置き換えるために前処理されていました。

ソースデータ

初期データ収集と正規化

データはニュース記事とハイライト文で構成されます。データの質問と回答の設定では、記事がコンテキストとして使用され、強調表示された文の中にエンティティが 1 つずつ隠されます。その結果、モデルの目標はコンテキスト内のどのエンティティが正しく推測されるかというクローズスタイルの質問になります。ハイライトの中に隠れています。要約設定では、ハイライトされた文が連結されて記事の要約が形成されます。 CNN の記事は 2007 年 4 月から 2015 年 4 月の間に書かれました。 DailyMail の記事は、2010 年 6 月から 2015 年 4 月の間に書かれました。生データ収集のコードは次の場所で入手できます。 https://github.com/deepmind/rc-data で見つかりました。記事はウェイバックマシンを使用して公開されました www.cnn.com>そしてwww.dailymail.co.uk> ファイルのダウンロード。 2,000 を超えるタグを持つ記事は、バージョン 1.0.0 コレクションには含まれません。

CNN-DailyMail-newspaper.torrent

シーディング 1ダウンロード中 0完了 203総ダウンロード数 437

CNN-DailyMail-newspaper/
- README.md
  2.79 KB
- README.txt
  5.57 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

薬物有害反応シミュレーションデータセット

Command Palette

CNN/DailyMail ニュース記事データセット

データフィールド

データ分割

データセットの作成

履歴を作成する

ソースデータ

初期データ収集と正規化

AIでAIを構築

HyperAI Newsletters

Command Palette

CNN/DailyMail ニュース記事データセット

データフィールド

データ分割

データセットの作成

履歴を作成する

ソースデータ

初期データ収集と正規化

関連データセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット

COCO-2017-ベトナム語画像検出データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

Nemotron Personas France（フランス合成ペルソナデータセット）

歴史的なパンデミックとエピデミック：世界的な歴史的エピデミックデータセット

肺がん臨床データセット

Open-RL推論問題データセット

薬物有害反応シミュレーションデータセット

汎がんscRNA-Seqがん単一細胞転写アトラスデータセット

Nemotron-Personas-Brazil ブラジル合成文字データセット

RoVid-X ロボット ビデオ生成データセット

ソナー信号 水中ソナー信号データセット

デリー大気汚染AQIデータセット

メキシコ糖尿病（メキシコ糖尿病データセット）

患者セグメンテーションデータセット

RealTimeFaceSwap-10k ビデオ通話なりすましデータセット

患者離脱予測データセット

Nemotron-Math-v2 数学推論データセット

バッテリー故障サーフェスデータセット

グローバルグリーンエネルギーパルスデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

CNN/DailyMail ニュース記事データセット

データフィールド

データ分割

データセットの作成

履歴を作成する

ソースデータ

初期データ収集と正規化

関連データセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット

COCO-2017-ベトナム語画像検出データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

Nemotron Personas France（フランス合成ペルソナデータセット）

歴史的なパンデミックとエピデミック：世界的な歴史的エピデミックデータセット

肺がん臨床データセット

Open-RL推論問題データセット

薬物有害反応シミュレーションデータセット

汎がんscRNA-Seqがん単一細胞転写アトラスデータセット

Nemotron-Personas-Brazil ブラジル合成文字データセット

RoVid-X ロボット ビデオ生成データセット

ソナー信号 水中ソナー信号データセット

デリー大気汚染AQIデータセット

メキシコ糖尿病（メキシコ糖尿病データセット）

患者セグメンテーションデータセット

RealTimeFaceSwap-10k ビデオ通話なりすましデータセット

患者離脱予測データセット

Nemotron-Math-v2 数学推論データセット

バッテリー故障サーフェスデータセット

グローバルグリーンエネルギーパルスデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット

COCO-2017-ベトナム語画像検出データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

Nemotron Personas France（フランス合成ペルソナデータセット）

歴史的なパンデミックとエピデミック：世界的な歴史的エピデミックデータセット

肺がん臨床データセット

Open-RL推論問題データセット

RoVid-X ロボットビデオ生成データセット

ソナー信号水中ソナー信号データセット

RoVid-X ロボットビデオ生成データセット

ソナー信号水中ソナー信号データセット

RoVid-X ロボットビデオ生成データセット

ソナー信号水中ソナー信号データセット

RoVid-X ロボットビデオ生成データセット

ソナー信号水中ソナー信号データセット