HyperAIHyperAI

Command Palette

Search for a command to run...

MMDenseLSTM: Eine effiziente Kombination von Faltungs- und Rekurrenten Neuronalen Netzen für die Audio-Quellen-Trennung

Naoya Takahashi Nabarun Goswami Yuki Mitsufuji

Zusammenfassung

Tiefe neuronale Netze sind zu einer unverzichtbaren Technik für die Trennung von Audioquellen (ASS) geworden. Kürzlich wurde berichtet, dass eine Variante der CNN-Architektur, das MMDenseNet, erfolgreich zur Lösung des ASS-Problems eingesetzt wurde, bei dem Quellamplituden geschätzt werden. Für den DSD100-Datensatz wurden dabei Stand-der-Technik-Ergebnisse erzielt. Um MMDenseNet weiter zu verbessern, schlagen wir hier eine neuartige Architektur vor, die langfristige kurzfazitgedächtnis-Netze (LSTM) in mehreren Skalen mit Skip-Verbindungen integriert, um langfristige Strukturen im Audiokontext effizient zu modellieren. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode sowohl MMDenseNet als auch LSTM und eine Kombination beider Netzwerke übertrifft. Die Anzahl der Parameter und die Verarbeitungszeit des vorgeschlagenen Modells sind deutlich geringer als bei einer einfachen Kombination. Darüber hinaus liefert die vorgeschlagene Methode bessere Ergebnisse als jene, die mit idealen binären Masken bei der Aufgabenstellung der Trennung von Gesangsstimmen erzielt wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp