HyperAI초신경

CNN/DailyMail 뉴스 기사 데이터세트

날짜

9달 전

크기

503.3 MB

기관

캐글

발행 주소

www.kaggle.com

카테고리

이 데이터 세트에는 CNN과 Daily Mail 기자들이 쓴 30만 개 이상의 고유한 뉴스 기사가 포함되어 있습니다. 현재 버전은 추출적 요약과 추상적 요약을 지원하지만, 원래 버전은 기계 판독 및 이해와 추상적 질의응답을 위해 만들어졌습니다. 이 데이터 세트의 목적은 긴 문단의 텍스트를 1~2개의 문장으로 요약할 수 있는 모델을 개발하는 데 도움을 주는 것입니다. 이는 방대한 양의 텍스트에서 정보를 효율적으로 표현하는 데 유용한 작업입니다.

데이터 필드

  • id: 스토리를 검색할 URL의 16진수 형식의 SHA1 해시를 포함하는 문자열
  • article: 뉴스 기사의 본문을 포함하는 문자열
  • highlights: 기사 작성자가 작성한 기사 하이라이트를 포함하는 문자열

데이터 세분화

CNN/DailyMail 데이터 세트는 훈련, 검증, 테스트의 3가지 부분으로 나뉩니다. 다음은 데이터 세트 3.0.0 버전의 통계입니다.

데이터 세트 분할분할의 인스턴스 수
기차287,113
확인13,368
시험11,490

데이터 세트 생성

창조 역사

버전 1.0.0은 기계 판독 및 질의응답을 위한 지도 신경망 접근 방식을 지원하기 위해 대량의 실제 자연어 학습 데이터를 활용하는 것을 목표로 하며, 약 313,000개의 고유 문서와 문서와 함께 제공되는 거의 100만 개의 빈칸 채우기 질문을 공개했습니다. 버전 2.0.0과 3.0.0에서는 질문에 대한 답변 대신 요약을 지원하도록 데이터 세트의 구조가 변경되었습니다. 버전 3.0.0은 익명화되지 않은 데이터 버전을 제공하는 반면, 이전 두 버전은 명명된 엔터티를 고유 식별자 레이블로 대체하기 위해 사전 처리되었습니다.

소스 데이터

초기 데이터 수집 및 정규화

데이터는 뉴스 기사와 강조된 문장으로 구성되어 있습니다. 데이터의 질의응답 설정에서, 기사는 맥락으로 사용되고 강조된 문장에 엔터티가 하나씩 숨겨져 빈칸 채우기 스타일의 질문이 생성됩니다. 여기서 모델의 목표는 맥락에서 강조 표시에 숨겨진 엔터티가 무엇인지 정확하게 추측하는 것입니다. 요약 설정에서는 강조된 문장을 연결하여 기사 요약을 형성합니다. CNN 기사는 2007년 4월부터 2015년 4월 사이에 작성되었습니다. DailyMail 기사는 2010년 6월부터 2015년 4월 사이에 작성되었습니다.

원래 데이터 수집을 위한 코드는 다음에서 사용할 수 있습니다. https://github.com/deepmind/rc-data 에서 발견됨. 이 기사는 Wayback Machine을 사용하여 업로드되었습니다. www.cnn.com>그리고www.dailymail.co.uk> 파일 다운로드. 기사의 태그가 2,000개를 초과하면 1.0.0 버전 컬렉션에 포함되지 않습니다.

CNN-DailyMail-newspaper.torrent
시딩 1다운로드 중 1완료됨 105총 다운로드 횟수 131
  • CNN-DailyMail-newspaper/
    • README.md
      2.79 KB
    • README.txt
      5.57 KB
      • data/
        • newspaper.zip
          503.3 MB