HyperAIHyperAI

Command Palette

Search for a command to run...

Berechnungs- und speichereffiziente universelle Audiosignalquellentrennung

Efthymios Tzinis Zhepei Wang Xilin Jiang Paris Smaragdis

Zusammenfassung

Die jüngsten Fortschritte in der audio-basierten Quellentrennung, die durch tiefe Lernverfahren vorangetrieben wurden, haben es zahlreichen neuronalen Netzwerken ermöglicht, robuste Lösungen für dieses grundlegende Schätzproblem zu liefern. In dieser Studie präsentieren wir eine Familie effizienter neuronaler Netzwerkarchitekturen für die allgemeine audio-basierte Quellentrennung, wobei wir uns insbesondere auf mehrere rechnerische Aspekte konzentrieren, die die Anwendung neuronaler Netzwerke in realen Anwendungsszenarien erschweren. Die Grundstruktur dieses Faltungsnetzwerks basiert auf der SUccessive DOwnsampling and Resampling of Multi-Resolution Features (SuDoRM-RF) sowie deren Aggregation mittels einfacher eindimensionaler Faltungen. Dieses Mechanismus ermöglicht es unseren Modellen, eine hochwertige Signalentrennung in einer Vielzahl von Szenarien zu erzielen, in denen eine variable Anzahl von Quellen vorliegt und die verfügbaren Rechenressourcen begrenzt sind (z. B. Anzahl von Gleitkommaoperationen, Speicherbedarf, Anzahl der Parameter und Latenz). Unsere Experimente zeigen, dass SuDoRM-RF-Modelle mit deutlich geringeren rechnerischen Anforderungen vergleichbare oder sogar überlegene Leistung gegenüber mehreren state-of-the-art-Referenzverfahren erzielen. Die kausale Variante von SuDoRM-RF erreicht im Echtzeit-Sprachentrennungsaufgabe eine konkurrenzfähige Leistung mit einer Skaleninvarianten Signal-zu-Störungs-Verhältnis-Verbesserung (SI-SDRi) von etwa 10 dB und bleibt dabei bis zu 20-mal schneller als Echtzeit auf einem Laptop-Gerät.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Berechnungs- und speichereffiziente universelle Audiosignalquellentrennung | Paper | HyperAI