방송 뉴스 대용량 텍스트 데이터 세트
방송 뉴스는 다음 단어 예측을 위한 대규모 텍스트 데이터 세트로, 1996년 방송 뉴스 연설 코퍼스를 포함하고 있습니다. 이 코퍼스에는 ABC, CNN, CSPAN 텔레비전 네트워크와 NPR, PRI 라디오 네트워크의 방송 104시간 분량과 해당 대본이 포함되어 있습니다.
이 시리즈는 방송 분야에서의 연속 음성 인식에 관한 DARPA의 "HUB4" 프로젝트에 대한 훈련 데이터를 제공합니다.
이 데이터 세트는 1997년 펜실베이니아 대학에서 공개되었습니다.
관련 논문: 1996년 영어 방송 뉴스 연설(HUB4) LDC97S44