HyperAIHyperAI
vor 17 Tagen

Codifizierte Audio-Sprachmodellierung lernt nützliche Darstellungen für die Musikinformationssuche

Rodrigo Castellon, Chris Donahue, Percy Liang
Codifizierte Audio-Sprachmodellierung lernt nützliche Darstellungen für die Musikinformationssuche
Abstract

Wir zeigen, dass Sprachmodelle, die auf kodifiziertem (diskret codiertem) Musikaudio vortrainiert wurden, Darstellungen erlernen, die für nachgeschaltete Aufgaben im Bereich der Musikinformationssuche (MIR) nützlich sind. Insbesondere untersuchen wir die Darstellungen aus Jukebox (Dhariwal et al. 2020), einem Musikgenerierungssystem, das ein Sprachmodell auf kodiertem Audio aus einer Million Songs trainiert hat. Um zu prüfen, ob Jukebox’s Darstellungen nützliche Informationen für MIR-Aufgaben enthalten, verwenden wir sie als Eingabemerkmale, um einfache Modelle auf mehreren MIR-Aufgaben zu trainieren. Im Vergleich zu Darstellungen herkömmlicher MIR-Modelle, die auf Tagging vortrainiert wurden, ergibt sich im Durchschnitt eine um 30 % stärkere Leistung bei vier MIR-Aufgaben – nämlich Tagging, Genre-Klassifikation, Emotionserkennung und Tonartdetektion – wenn Jukebox-Darstellungen als Eingabemerkmale verwendet werden. Bei der Tonartdetektion stellen wir fest, dass die Darstellungen aus Jukebox deutlich stärker sind als die aus Modellen, die auf Tagging vortrainiert wurden, was darauf hindeutet, dass das Vortrainieren mittels Sprachmodellierung kodifizierter Audio-Daten möglicherweise Blindstellen herkömmlicher Ansätze adressiert. Wir deuten die Stärke der Jukebox-Darstellungen als Hinweis darauf, dass die Modellierung von Audio anstelle von Tags für die MIR reichhaltigere Darstellungen liefert.