vor 7 Monaten

Zusammenfassung

Tiefe neuronale Netze sind zu einer unverzichtbaren Technik für die Trennung von Audioquellen (ASS) geworden. Kürzlich wurde berichtet, dass eine Variante der CNN-Architektur, das MMDenseNet, erfolgreich zur Lösung des ASS-Problems eingesetzt wurde, bei dem Quellamplituden geschätzt werden. Für den DSD100-Datensatz wurden dabei Stand-der-Technik-Ergebnisse erzielt. Um MMDenseNet weiter zu verbessern, schlagen wir hier eine neuartige Architektur vor, die langfristige kurzfazitgedächtnis-Netze (LSTM) in mehreren Skalen mit Skip-Verbindungen integriert, um langfristige Strukturen im Audiokontext effizient zu modellieren. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode sowohl MMDenseNet als auch LSTM und eine Kombination beider Netzwerke übertrifft. Die Anzahl der Parameter und die Verarbeitungszeit des vorgeschlagenen Modells sind deutlich geringer als bei einer einfachen Kombination. Darüber hinaus liefert die vorgeschlagene Methode bessere Ergebnisse als jene, die mit idealen binären Masken bei der Aufgabenstellung der Trennung von Gesangsstimmen erzielt wurden.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Faltungsneuronales Netzwerk

Tiefes Lernen

Audio- Und Sprachverarbeitung

Naoya Takahashi Nabarun Goswami Yuki Mitsufuji

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Faltungsneuronales Netzwerk

Tiefes Lernen

Audio- Und Sprachverarbeitung

Naoya Takahashi Nabarun Goswami Yuki Mitsufuji

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MMDenseLSTM: Eine effiziente Kombination von Faltungs- und Rekurrenten Neuronalen Netzen für die Audio-Quellen-Trennung

Naoya Takahashi Nabarun Goswami Yuki Mitsufuji

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MMDenseLSTM: Eine effiziente Kombination von Faltungs- und Rekurrenten Neuronalen Netzen für die Audio-Quellen-Trennung

Naoya Takahashi Nabarun Goswami Yuki Mitsufuji

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MMDenseLSTM: Eine effiziente Kombination von Faltungs- und Rekurrenten Neuronalen Netzen für die Audio-Quellen-Trennung

Naoya Takahashi Nabarun Goswami Yuki Mitsufuji

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters