GigaSpeech : un corpus ASR évolutif et multi-domaines comprenant 10 000 heures d'audio transcrit

Cet article présente GigaSpeech, un corpus évolutif et multi-domaines pour la reconnaissance vocale en anglais, comprenant 10 000 heures d’audio étiqueté de haute qualité adapté à l’entraînement supervisé, ainsi que 40 000 heures d’audio au total, utilisables pour l’entraînement semi-supervisé et non supervisé. Environ 40 000 heures d’audio transcrit ont été initialement recueillies à partir d’ouvrages audio, de podcasts et de vidéos YouTube, couvrant à la fois des styles de parole lue et spontanée, ainsi qu’une grande variété de sujets tels que les arts, les sciences, les sports, etc. Un nouveau pipeline de mise en alignement forcé et de segmentation est proposé afin de générer des segments de phrases adaptés à l’entraînement de systèmes de reconnaissance vocale, tout en filtrant les segments présentant une transcription de faible qualité. Pour l’entraînement des systèmes, GigaSpeech fournit cinq sous-ensembles de tailles différentes : 10 h, 250 h, 1 000 h, 2 500 h et 10 000 h. Pour notre sous-ensemble d’entraînement XL de 10 000 heures, nous avons fixé un taux d’erreur de mot à 4 % lors de l’étape de filtrage et de validation, tandis que pour tous les autres sous-ensembles d’entraînement plus petits, ce taux a été fixé à 0 %. Les ensembles d’évaluation DEV et TEST, quant à eux, ont été retraités par des transcribeurs humains professionnels afin d’assurer une qualité de transcription élevée. Des systèmes de référence sont fournis pour des outils populaires de reconnaissance vocale, notamment Athena, ESPnet, Kaldi et Pika.