Jam-ALT : Un benchmark de transcription de paroles sensible au formatage

Les benchmarks actuels de transcription automatique de paroles (TAP) se concentrent exclusivement sur le contenu lexical et ignorent les nuances plus subtiles des paroles écrites, notamment la mise en forme et la ponctuation. Cela peut entraîner une potentielle désynchronisation avec les produits créatifs des musiciens et compositeurs, ainsi qu'avec l'expérience des auditeurs. Par exemple, les retours à la ligne sont importants pour transmettre des informations sur le rythme, l'emphase émotionnelle, la rime et la structure de haut niveau. Pour remédier à ce problème, nous présentons Jam-ALT, un nouveau benchmark de transcription de paroles basé sur le dataset JamendoLyrics.Notre contribution est double. Premièrement, une révision complète des transcriptions, spécifiquement conçue pour l'évaluation de la TAP en suivant un guide d'annotation nouvellement créé qui unifie les directives de l'industrie musicale, couvrant des aspects tels que la ponctuation, les retours à la ligne, l'orthographe, les voix d'accompagnement et les sons non verbaux. Deuxièmement, un ensemble de métriques d'évaluation conçu pour capturer ces phénomènes, contrairement au taux d'erreur lexical traditionnel.Nous espérons que le benchmark proposé contribuera à la tâche de TAP en permettant des évaluations plus précises et fiables des systèmes de transcription et en améliorant l'expérience utilisateur dans les applications de paroles telles que l'affichage des sous-titres pour le sous-titrage en direct ou le karaoké.