La modélisation linguistique audio codifiée apprend des représentations utiles pour la recherche d'information musicale

Nous démontrons que les modèles linguistiques pré-entraînés sur des données audio musicales codifiées (encodées de manière discrète) apprennent des représentations utiles pour des tâches ultérieures de MIR (Music Information Retrieval). Plus précisément, nous explorons les représentations issues de Jukebox (Dhariwal et al., 2020), un système de génération musicale intégrant un modèle linguistique entraîné sur des données audio codifiées issues de 1 million de chansons. Pour évaluer si les représentations de Jukebox contiennent des informations pertinentes pour la MIR, nous les utilisons comme caractéristiques d’entrée afin d’entraîner des modèles légers sur plusieurs tâches de MIR. Par rapport aux représentations issues de modèles MIR classiques pré-entraînés sur des étiquetages (tagging), nous constatons que l’utilisation des représentations de Jukebox comme entrée permet une performance moyenne améliorée de 30 % sur quatre tâches de MIR : étiquetage, classification de genre, reconnaissance d’émotion et détection de tonalité. En particulier, pour la détection de tonalité, nous observons que les représentations de Jukebox sont nettement supérieures à celles des modèles pré-entraînés sur des étiquetages, ce qui suggère que l’entraînement préalable par modélisation linguistique d’audio codifié pourrait combler des lacunes inhérentes aux approches conventionnelles. Nous interprétons la force des représentations de Jukebox comme une preuve que la modélisation directe de l’audio, plutôt que des étiquettes, permet d’obtenir des représentations plus riches pour la MIR.