Wie CNNs musikalische Ähnlichkeit lernen und Streaming-Plattformen verbessern
Streaming-Plattformen wie Spotify und Apple Music nutzen fortschrittliche KI-Systeme, um Musikempfehlungen präzise und personalisiert zu gestalten. Eine zentrale Technologie dahinter sind audiobasierte Embeddings, die durch Convolutional Neural Networks (CNNs) gelernt werden. Diese ermöglichen es, Musikstücke nicht nur nach Metadaten wie Genre oder Künstler, sondern nach ihrer tatsächlichen akustischen Ähnlichkeit zu vergleichen – eine Schlüsselkomponente für moderne, leistungsfähige Empfehlungssysteme. Der Prozess beginnt mit der Umwandlung von MP3-Dateien in Mel-Spektrogramme, eine zweidimensionale Darstellung der Frequenzinhalte über die Zeit, die an die menschliche Hörfähigkeit angepasst ist. Diese Spektrogramme dienen als Eingabe für das neuronale Netzwerk. Statt das gesamte Lied zu verarbeiten, werden zufällige, kurze Ausschnitte (z. B. 128×129 Pixel) aus jedem Song extrahiert. Dies verhindert Overfitting und zwingt das Modell, lokale musikalische Merkmale wie Timbre, Rhythmusdichte oder Klangfarbe zu erkennen. Zur Trainingszeit wird contrastive Learning eingesetzt – insbesondere die InfoNCE-Loss-Funktion – um das Modell zu lehren, dass zwei zufällig gestörte Versionen desselben Ausschnitts („positive Paare“) ähnlich sein sollen, während Ausschnitte aus anderen Liedern („negative Paare“) voneinander entfernt werden müssen. Dies geschieht durch zwei stochastische Augmentierungen jedes Batchs (z. B. durch Hinzufügen von Rauschen), gefolgt von L2-Normalisierung der Embeddings. Die Loss-Funktion maximiert die Ähnlichkeit zwischen den beiden Versionen desselben Ausschnitts und minimiert sie gegenüber allen anderen, was eine strukturierte, semantisch sinnvolle Embedding-Raumgeometrie schafft – ohne dass Labels benötigt werden. Die CNN-Architektur besteht aus drei Schichten mit zunehmender Filteranzahl (32 → 64 → 128), wobei Batch-Normalisierung und Max-Pooling die Stabilität und Robustheit erhöhen. Die globalen Durchschnittswerte der Feature-Maps werden durch Global Average Pooling zusammengefasst, um eine feste Länge von 128 Dimensionen zu erzeugen. Diese Embeddings werden dann für die Ähnlichkeitsberechnung verwendet. Zur Evaluierung wurden die Ergebnisse mit PCA und t-SNE visualisiert. PCA zeigt eine glatte, kontinuierliche Struktur, was auf eine kohärente, global organisierte Ähnlichkeitsstruktur hindeutet – die Modelle erfassen nicht nur Genre, sondern feinere akustische Unterschiede. t-SNE zeigt dagegen lokale Cluster, in denen Lieder desselben Genres näher beieinander liegen, was die Fähigkeit des Modells zur Erkennung ähnlicher Klangmerkmale bestätigt. Die praktische Anwendung erfolgt in einer einfachen Web-App: Ein hochgeladenes MP3 wird in ein Spektrogramm umgewandelt, das CNN berechnet das Embedding, und die ähnlichsten Lieder werden über cosine Similarity aus einer vorberechneten Datenbank ausgewählt. Die Vorberechnung der Embeddings ermöglicht schnelle Reaktionen, was für eine echte Anwendung entscheidend ist. Diese Methode ist jedoch nur ein Baustein. Moderne Systeme kombinieren audio-basierte Embeddings mit kollaborativen Filtern, die Nutzerverhalten analysieren. So verbindet man das „Was klingt ähnlich?“ mit dem „Wer hat was schon gehört?“ – eine hybride Empfehlungsstrategie, die akustische Qualität mit persönlichen Präferenzen verbindet. Industrieexperten schätzen solche Ansätze hoch: „Audio-Embeddings ermöglichen eine objektive, datengestützte Ähnlichkeitsmessung, die über Genre-Hierarchien hinausgeht“, sagt ein Forscher im Bereich Music Information Retrieval. Unternehmen wie Spotify nutzen ähnliche Technologien in Skalierung – etwa mit dem Modell Audio2Vec oder SonicScape – um Empfehlungen zu personalisieren, neue Künstler zu entdecken und die Nutzerbindung zu erhöhen. Die FMA-Datenbank, auf der dieses Projekt basiert, ist eine wichtige Ressource für Forschung, da sie lizenzfreie, vielfältige Musikdaten bereitstellt. Die Kombination aus KI, akustischer Analyse und Nutzerverhalten wird künftig die Grundlage für intelligentere, intuitivere Musik-Plattformen bleiben.
