Command Palette
Search for a command to run...
MMDenseLSTM: Eine effiziente Kombination von Faltungs- und Rekurrenten Neuronalen Netzen für die Audio-Quellen-Trennung
MMDenseLSTM: Eine effiziente Kombination von Faltungs- und Rekurrenten Neuronalen Netzen für die Audio-Quellen-Trennung
Naoya Takahashi Nabarun Goswami Yuki Mitsufuji
Zusammenfassung
Tiefe neuronale Netze sind zu einer unverzichtbaren Technik für die Trennung von Audioquellen (ASS) geworden. Kürzlich wurde berichtet, dass eine Variante der CNN-Architektur, das MMDenseNet, erfolgreich zur Lösung des ASS-Problems eingesetzt wurde, bei dem Quellamplituden geschätzt werden. Für den DSD100-Datensatz wurden dabei Stand-der-Technik-Ergebnisse erzielt. Um MMDenseNet weiter zu verbessern, schlagen wir hier eine neuartige Architektur vor, die langfristige kurzfazitgedächtnis-Netze (LSTM) in mehreren Skalen mit Skip-Verbindungen integriert, um langfristige Strukturen im Audiokontext effizient zu modellieren. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode sowohl MMDenseNet als auch LSTM und eine Kombination beider Netzwerke übertrifft. Die Anzahl der Parameter und die Verarbeitungszeit des vorgeschlagenen Modells sind deutlich geringer als bei einer einfachen Kombination. Darüber hinaus liefert die vorgeschlagene Methode bessere Ergebnisse als jene, die mit idealen binären Masken bei der Aufgabenstellung der Trennung von Gesangsstimmen erzielt wurden.