HyperAIHyperAI

Command Palette

Search for a command to run...

Lyrics-Transkription für Menschen: Ein Lesbarkeitsbewusstes Benchmark

Ondřej Cífka; Hendrik Schreiber; Luke Miner; Fabian-Robert Stöter

Zusammenfassung

Die Notation von Liedtexten für die menschliche Lesbarkeit beinhaltet nicht nur die genaue Erfassung von Wortfolgen, sondern auch die Einbeziehung von Interpunktion und Formatierung zur Klarheit und zur Übermittlung kontextspezifischer Informationen. Dies umfasst die Struktur des Liedes, emotionale Betonungen sowie den Kontrast zwischen Haupt- und Hintergrundgesang. Obwohl automatische Liedtexterkennungssysteme (ALT) fortgeschritten sind und nicht mehr lediglich unstrukturierte Wörterketten erzeugen, sondern auf einen breiteren Kontext zurückgreifen können, haben sich die ALT-Benchmarks nicht entsprechend weiterentwickelt und konzentrieren sich weiterhin ausschließlich auf Wörter. Um diese Lücke zu schließen, stellen wir Jam-ALT vor, eine umfassende Benchmark für automatische Liedtexterkennung. Diese Benchmark enthält eine vollständige Überarbeitung des JamendoLyrics-Datensatzes gemäß den Branchenstandards für die Transkription und Formatierung von Liedtexten sowie Evaluationsmetriken, die entwickelt wurden, um die textspezifischen Feinheiten zu erfassen und zu bewerten. Damit legen wir den Grundstein für die Verbesserung der Lesbarkeit von Liedtexten. Wir wenden das Benchmarking auf aktuelle Transkriptionssysteme an und präsentieren zusätzliche Fehleranalysen sowie einen experimentellen Vergleich mit einem klassischen Musikdatensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp