HyperAI

Ensemble De Données Textuelles Volumineuses Sur Les Actualités Diffusées

Aide au téléchargement

Broadcast News est un grand ensemble de données textuelles pour la prédiction du mot suivant qui comprend le corpus de discours Broadcast News de 1996 contenant 104 heures d'émissions des réseaux de télévision ABC, CNN et CSPAN, ainsi que des réseaux de radio NPR et PRI, avec les transcriptions correspondantes.

Cette série fournit des données de formation pour le projet « HUB4 » de la DARPA sur la reconnaissance vocale continue dans le domaine de la diffusion.

Cet ensemble de données a été publié par l’Université de Pennsylvanie en 1997.

Article connexe : Discours d'un journal télévisé en anglais de 1996 (HUB4) LDC97S44