Musikquellentrennung mit Band-split RNN

Die Leistung von Musikquellentrennungsmodellen (Music Source Separation, MSS) hat in den letzten Jahren erheblich durch die Entwicklung neuer neuronalen Netzarchitekturen und Trainingspipelines verbessert werden können. Dennoch wurden die jüngsten Modellentwürfe für MSS hauptsächlich durch andere audioverarbeitende Aufgaben oder Forschungsfelder motiviert, während die inhärenten Eigenschaften und Muster von Musiksignalen nicht ausreichend erschlossen wurden. In diesem Beitrag stellen wir BSRNN (band-split RNN), ein frequenzdomänenbasiertes Modell vor, das die Spektrogramm des Mischsignals explizit in Unterbänder aufteilt und eine abwechselnde Modellierung auf Band- und Sequenzebene durchführt. Die Wahl der Bandbreiten der Unterbänder kann anhand vorheriger Kenntnisse oder fachspezifischer Expertenwissen über die Eigenschaften der Zielquelle erfolgen, um die Leistung für eine bestimmte Art von musikalischen Instrumenten zu optimieren. Um unlabeled Daten effizienter nutzen zu können, beschreiben wir außerdem einen semi-supervised-Finetuning-Pipeline, die die Modellleistung weiter steigern kann. Experimentelle Ergebnisse zeigen, dass BSRNN, das ausschließlich auf dem MUSDB18-HQ-Datensatz trainiert wurde, mehrere Top-Platzierungen im Music Demixing (MDX) Challenge 2021 deutlich übertrifft, und die semi-supervised-Finetuning-Phase die Leistung auf allen vier Instrumentenspuren weiter verbessert.