HyperAIHyperAI
il y a 2 mois

Transcription de Paroles pour les Humains : Un Benchmark Prenant en Compte la Lisibilité

Ondřej Cífka; Hendrik Schreiber; Luke Miner; Fabian-Robert Stöter
Transcription de Paroles pour les Humains : Un Benchmark Prenant en Compte la Lisibilité
Résumé

L'écriture de paroles destinées à la lecture humaine ne se limite pas à capturer avec précision les séquences de mots, mais implique également l'incorporation de ponctuation et de mise en forme pour assurer la clarté et transmettre des informations contextuelles. Cela comprend la structure de la chanson, l'accent mis sur les émotions et le contraste entre les voix principales et les voix d'accompagnement. Bien que les systèmes de transcription automatique de paroles (TAP) aient progressé au-delà de la production de chaînes non structurées de mots et soient capables d'utiliser un contexte plus large, les références d'évaluation des TAP n'ont pas suivi ce rythme et continuent à se concentrer exclusivement sur les mots. Pour combler cette lacune, nous présentons Jam-ALT, une référence complète pour la transcription automatique de paroles. Cette référence comporte une révision totale du dataset JamendoLyrics, conforme aux normes industrielles en matière de transcription et de mise en forme des paroles, ainsi que des métriques d'évaluation conçues pour saisir et évaluer les nuances spécifiques aux paroles, posant ainsi les bases pour améliorer leur lisibilité. Nous appliquons cette référence à des systèmes de transcription récents et présentons une analyse supplémentaire des erreurs, ainsi qu'une comparaison expérimentale avec un dataset musical classique.

Transcription de Paroles pour les Humains : Un Benchmark Prenant en Compte la Lisibilité | Articles de recherche récents | HyperAI