HyperAI
vor 18 Tagen

SonicVerse: Mehrfach-Aufgaben-Lernen für musikalische Merkmalsbeschreibungen

Chopra, Anuradha ; Roy, Abhinaba ; Herremans, Dorien
SonicVerse: Mehrfach-Aufgaben-Lernen für musikalische Merkmalsbeschreibungen
Abstract

Detaillierte Bildunterschriften, die die Eigenschaften eines Musikstücks genauestens widerspiegeln, können Musikdatenbanken bereichern und die Forschung im Bereich Musik-KI vorantreiben. In dieser Arbeit wird ein mehrfach ausgerichteter Musikbeschreibungsmodell, SonicVerse, vorgestellt, das die Generierung von Beschreibungen mit Nebenaufgaben zur Erkennung musikalischer Merkmale wie Tonarterkennung (key detection), Gesangserkennung (vocals detection) und anderen kombiniert. Dies ermöglicht es, sowohl niedrigstufige akustische Details als auch hochstufige musikalische Attribute direkt zu erfassen. Der wesentliche Beitrag besteht in einer projektorbasierten Architektur, die Audioeingaben in Sprachtokens transformiert und gleichzeitig durch spezielle Nebenkopfmodule musikalische Merkmale erkennt. Die Ausgänge dieser Module werden ebenfalls in Sprachtokens projiziert, um den Eingang für die Beschreibungsgenerierung zu verbessern. Dieses Framework erzeugt nicht nur reichhaltige, beschreibende Untertitel für kurze Musikfragmente, sondern ermöglicht durch die Verkettung der Ausgänge mithilfe eines großen Sprachmodells auch die Erstellung detaillierter zeitbezogener Beschreibungen für längere Musikstücke. Um das Modell zu trainieren, haben wir den MusicBench-Datensatz durch Annotieren mit musikalischen Merkmalen unter Verwendung von MIRFLEX, einem modularen Musikerkennungsmodul (modular music feature extractor), erweitert. Dies führte zu einem Datensatz mit gepaarten Audiodaten, Beschreibungen und Merkmalsinformationen. Experimentelle Ergebnisse zeigen, dass diese Art der Merkmaleinbindung die Qualität und Detailgenauigkeit der generierten Beschreibungen verbessert.