Sudo rm -rf: Effiziente Netzwerke für universelle Audio-Quellentrennung

In diesem Artikel präsentieren wir ein effizientes neuronales Netzwerk für die end-to-end-Allzweck-Audioquellentrennung. Konkret basiert die Grundstruktur dieses Faltungsnetzwerks auf der SUccessive DOwnsampling und Resampling of Multi-Resolution Features (SuDoRMRF) sowie deren Aggregation mittels einfacher eindimensionaler Faltungen. Auf diese Weise erreichen wir eine hochwertige Audioquellentrennung mit einer begrenzten Anzahl an Fließkomma-Operationen, geringen Speicheranforderungen, wenigen Parametern und geringer Latenz. Unsere Experimente an Datensätzen für Sprach- und Umgebungsgeräuschtrennung zeigen, dass SuDoRMRF vergleichbare und sogar überlegene Ergebnisse erzielt im Vergleich zu verschiedenen state-of-the-art-Ansätzen, die jedoch deutlich höhere rechnerische Ressourcen erfordern.