Jam-ALT: Ein Formatbewusster Liedtext-Transkriptions-Benchmark

Aktuelle Benchmarks für die automatische Lyrical Transkription (ALT) konzentrieren sich ausschließlich auf den Wortinhalt und ignorieren die feineren Nuancen der geschriebenen Lyrics, einschließlich Formatierung und Interpunktion. Dies führt zu einer potenziellen Fehlallokation mit den kreativen Produkten von Musikern und Songwritern sowie den Erfahrungen der Hörer. Zum Beispiel sind Zeilenumbrüche wichtig, um Informationen über Rhythmus, emotionale Betonung, Reim und hochrangige Struktur zu vermitteln. Um dieses Problem anzugehen, stellen wir Jam-ALT vor, ein neues Benchmark für Lyrical Transkription basierend auf dem JamendoLyrics-Datensatz. Unser Beitrag ist zweifach. Erstens eine vollständige Überarbeitung der Transkripte, die speziell für die ALT-Bewertung angepasst wurde, indem sie einem neu erstellten Anmerkungsleitfaden folgt, der die Richtlinien der Musikindustrie vereint und Aspekte wie Interpunktion, Zeilenumbrüche, Rechtschreibung, Background Vocals und Nicht-Wortklänge abdeckt. Zweitens eine Reihe von Bewertungsmaßstäben, die im Gegensatz zum traditionellen Wortfehlerquotienten solche Phänomene erfassen sollen. Wir hoffen, dass das vorgeschlagene Benchmark zur ALT-Aufgabe beiträgt, indem es präzisere und zuverlässigere Bewertungen von Transkriptionssystemen ermöglicht und die Benutzererfahrung in Lyrics-Anwendungen wie Untertitelgenerierung für Live-Captioning oder Karaoke verbessert.