Berechnungs- und speichereffiziente universelle Audiosignalquellentrennung

Die jüngsten Fortschritte in der audio-basierten Quellentrennung, die durch tiefe Lernverfahren vorangetrieben wurden, haben es zahlreichen neuronalen Netzwerken ermöglicht, robuste Lösungen für dieses grundlegende Schätzproblem zu liefern. In dieser Studie präsentieren wir eine Familie effizienter neuronaler Netzwerkarchitekturen für die allgemeine audio-basierte Quellentrennung, wobei wir uns insbesondere auf mehrere rechnerische Aspekte konzentrieren, die die Anwendung neuronaler Netzwerke in realen Anwendungsszenarien erschweren. Die Grundstruktur dieses Faltungsnetzwerks basiert auf der SUccessive DOwnsampling and Resampling of Multi-Resolution Features (SuDoRM-RF) sowie deren Aggregation mittels einfacher eindimensionaler Faltungen. Dieses Mechanismus ermöglicht es unseren Modellen, eine hochwertige Signalentrennung in einer Vielzahl von Szenarien zu erzielen, in denen eine variable Anzahl von Quellen vorliegt und die verfügbaren Rechenressourcen begrenzt sind (z. B. Anzahl von Gleitkommaoperationen, Speicherbedarf, Anzahl der Parameter und Latenz). Unsere Experimente zeigen, dass SuDoRM-RF-Modelle mit deutlich geringeren rechnerischen Anforderungen vergleichbare oder sogar überlegene Leistung gegenüber mehreren state-of-the-art-Referenzverfahren erzielen. Die kausale Variante von SuDoRM-RF erreicht im Echtzeit-Sprachentrennungsaufgabe eine konkurrenzfähige Leistung mit einer Skaleninvarianten Signal-zu-Störungs-Verhältnis-Verbesserung (SI-SDRi) von etwa 10 dB und bleibt dabei bis zu 20-mal schneller als Echtzeit auf einem Laptop-Gerät.