ブロードキャスト ニュースの大規模テキスト データ セット
ブロードキャスト ニュースは、1996 年をカバーする、次の単語を予測するための大規模なテキスト データセットです。ブロードキャスト ニュース音声コーパスには、ABC、CNN、CSPAN テレビ ネットワーク、NPR および PRI ラジオ ネットワークからの 104 時間の放送が含まれています。 1点を獲得します。
このシリーズは、DARPA「HUB4」プロジェクトの放送分野における連続音声認識に関するトレーニング データを提供します。
このデータセットは 1997 年にペンシルバニア大学によってリリースされました。
関連論文:「1996年英語放送ニューススピーチ(HUB4)LDC97S44」