英語ニューステキストのAQUAINTコーパス 英語ニュースワイヤーテキストデータセット
英語ニュース テキスト データセットの AQUAINT コーパスは、英語ニュース ワイヤーのテキスト データで構成されており、主にテキストの要約に使用されます。
このデータセットには、新華社通信社、ニューヨーク タイムズ ニュース サービス、AP 通信ワールドストリーム ニュース サービスからの約 3 億 7,500 万語が含まれており、国立標準技術研究所の AQUAINT プロジェクトのために言語データ コンソーシアム (LDC) によって編集されました。 (NIST) によって実施された公式ベンチマーク評価。
英語ニュース テキスト データ セットの AQUAINT コーパスは、2002 年 9 月にペンシルバニア大学によってリリースされ、主な発行者は David Graff です。