Lyrics-Transkription für Menschen: Ein Lesbarkeitsbewusstes Benchmark

Die Notation von Liedtexten für die menschliche Lesbarkeit beinhaltet nicht nur die genaue Erfassung von Wortfolgen, sondern auch die Einbeziehung von Interpunktion und Formatierung zur Klarheit und zur Übermittlung kontextspezifischer Informationen. Dies umfasst die Struktur des Liedes, emotionale Betonungen sowie den Kontrast zwischen Haupt- und Hintergrundgesang. Obwohl automatische Liedtexterkennungssysteme (ALT) fortgeschritten sind und nicht mehr lediglich unstrukturierte Wörterketten erzeugen, sondern auf einen breiteren Kontext zurückgreifen können, haben sich die ALT-Benchmarks nicht entsprechend weiterentwickelt und konzentrieren sich weiterhin ausschließlich auf Wörter. Um diese Lücke zu schließen, stellen wir Jam-ALT vor, eine umfassende Benchmark für automatische Liedtexterkennung. Diese Benchmark enthält eine vollständige Überarbeitung des JamendoLyrics-Datensatzes gemäß den Branchenstandards für die Transkription und Formatierung von Liedtexten sowie Evaluationsmetriken, die entwickelt wurden, um die textspezifischen Feinheiten zu erfassen und zu bewerten. Damit legen wir den Grundstein für die Verbesserung der Lesbarkeit von Liedtexten. Wir wenden das Benchmarking auf aktuelle Transkriptionssysteme an und präsentieren zusätzliche Fehleranalysen sowie einen experimentellen Vergleich mit einem klassischen Musikdatensatz.