Comment les réseaux de neurones convolutifs apprennent la similarité musicale pour les recommandations audio
Les réseaux de neurones convolutifs (CNN) jouent un rôle central dans l’apprentissage de la similarité musicale pour les systèmes de recommandation audio, comme ceux utilisés par Spotify ou Apple Music. Ces plateformes doivent proposer des titres adaptés aux préférences des utilisateurs, et une approche moderne repose sur des embeddings audio appris, qui représentent les morceaux dans un espace vectoriel haute dimension où la similarité sémantique est mesurable. Contrairement aux méthodes traditionnelles basées sur les métadonnées (filtrage par contenu) ou le comportement utilisateur (filtrage collaboratif), les embeddings audio captent des caractéristiques intrinsèques comme le timbre, le rythme, la texture et le style de production, indépendamment des interactions humaines. Le processus commence par la transformation d’un fichier MP3 brut — une série temporelle de signaux acoustiques — en spectrogrammes mel. Cette représentation bidimensionnelle, où l’axe horizontal correspond au temps, l’axe vertical aux bandes de fréquence métriques (adaptées à l’ouïe humaine) et les intensités colorées indiquent l’énergie acoustique, est bien plus adaptée à l’entrée d’un réseau neuronal qu’un signal brut. Les motifs visuels sur un spectrogramme mel — comme des bandes horizontales (notes prolongées) ou des traits verticaux (percussions) — portent des informations musicales significatives. Pour entraîner un modèle sans étiquettes, on utilise une approche par apprentissage contrastif. Chaque batch est constitué de 8 morceaux, dont on extrait aléatoirement des fragments courts (128×129 pixels). Deux versions augmentées de ces fragments sont générées en ajoutant un bruit gaussien, créant ainsi des « vues » stochastiques. Le modèle produit un embedding de 128 dimensions pour chaque fragment. L’objectif est d’optimiser une perte InfoNCE : les embeddings des deux vues d’un même fragment doivent être proches (pair positif), tandis que ceux de fragments différents doivent être éloignés (paires négatives). Cette perte pousse le modèle à apprendre une structure d’embedding où la similarité est mesurée par le cosinus entre vecteurs normalisés. L’architecture CNN utilisée est simple mais efficace : trois couches convolutives successives (32, 64, 128 filtres) captent des motifs locaux, puis des structures plus complexes (rythmes, textures), avant d’appliquer une moyenne globale pour obtenir un vecteur fixe. Une couche dense projette ce vecteur dans l’espace d’embedding, puis une normalisation L2 assure que tous les vecteurs se trouvent sur une sphère unité, facilitant le calcul de la similarité cosinus. L’évaluation de ces embeddings se fait via des visualisations dimensionnelles. La PCA montre une structure globale fluide et continue, avec des genres s’interpénétrant progressivement — signe que le modèle a capté des variations subtiles plutôt que des catégories rigides. La t-SNE met en évidence des regroupements locaux : des morceaux du même genre sont proches, mais avec des chevauchements, reflétant la diversité et la superposition des styles musicaux. En pratique, ces embeddings peuvent être intégrés dans une application web simple : un utilisateur télécharge un MP3, le système génère son spectrogramme mel, extrait l’embedding, puis compare ce vecteur à une base pré-calculée d’embeddings de la FMA Small. Les titres les plus similaires sont retournés via une recherche de similarité cosinus. Bien que rudimentaire, ce pipeline illustre le fonctionnement d’un système réel, où les embeddings audio sont combinés à d’autres approches — notamment le filtrage collaboratif — pour créer des systèmes hybrides performants. En résumé, les CNN apprennent la similarité musicale en transformant des signaux audio en représentations visuelles, en capturant des caractéristiques acoustiques profondes via des architectures convolutives et en structurant l’espace d’embedding grâce à des pertes contrastives. Cette approche, combinée à des méthodes classiques, permet des recommandations plus précises, plus riches et plus personnalisées.
