영어 뉴스 텍스트의 AQUAINT 코퍼스 영어 뉴스 라인 텍스트 데이터 세트

날짜

7년 전

기관

펜실베이니아 대학교
다운로드 도움말

AQUAINT Corpus of English News Text 데이터 세트는 영어 뉴스 통신사의 텍스트 데이터로 구성되며 주로 텍스트 요약에 사용됩니다.

신화통신, 뉴욕타임스 뉴스 서비스, AP 월드스트림 뉴스 서비스의 약 3억 7,500만 단어가 포함된 이 데이터 세트는 언어 데이터 컨소시엄(LDC)이 AQUAINT 프로젝트를 위해 수집하여 국립표준기술원(NIST)의 공식 벤치마크 평가에 사용했습니다.

AQUAINT 영어 뉴스 텍스트 데이터 세트는 2002년 9월 펜실베이니아 대학에서 공개되었으며, 주요 발행인은 데이비드 그래프였습니다.