HyperAIHyperAI

Command Palette

Search for a command to run...

Trennen und Rekonstruieren: Asymmetrischer Enkoder-Dekoder für Sprachtrennung

Ui-Hyeop Shin Sangyoun Lee Taehan Kim Hyung-Min Park

Zusammenfassung

Im Bereich der Sprachtrennung haben zeitdomänenbasierte Ansätze erfolgreich die Zeit-Frequenz-Domäne durch latente Sequenzmerkmale aus einem lernfähigen Encoder ersetzt. Traditionell wird das Merkmal in der letzten Netzwerkestufe in sprecherbezogene Merkmale aufgeteilt. Stattdessen schlagen wir eine intuitivere Strategie vor, die die Merkmalssequenz bereits früher trennt, indem sie die Anzahl der Sprecher als zusätzliche Dimension erweitert. Um dies zu erreichen, wird eine asymmetrische Strategie vorgestellt, bei der der Encoder und der Decoder getrennt werden, um unterschiedliche Verarbeitungen bei Trennungsaufgaben durchzuführen. Der Encoder analysiert die Merkmale, und die Ausgabe des Encoders wird in die Anzahl der zu trennenden Sprecher aufgeteilt. Die getrennten Sequenzen werden dann durch den gewichteteilen Decoder rekonstruiert, der auch die Verarbeitung zwischen den Sprechern durchführt. Ohne sich auf Sprecherinformationen zu stützen, lernt das gewichteteilte Netzwerk im Decoder direkt, Merkmale unter Verwendung eines Trennungsziels zu diskriminieren. Zudem wurden traditionelle Methoden zur Leistungssteigerung angewendet, indem sie die Sequenzlänge verlängerten, was zur Einführung von Dual-Path-Modellen führte. Diese verarbeiten längere Sequenzen effektiv, indem sie diese in Segmente unterteilen. Um dies anzugehen, führen wir globale und lokale Transformer-Blöcke ein, die lange Sequenzen ohne Segmentierung und Dual-Path-Verarbeitung effizienter direkt verarbeiten können. Die experimentellen Ergebnisse zeigten, dass diese asymmetrische Struktur effektiv ist und dass die Kombination der vorgeschlagenen globalen und lokalen Transformer ausreichend die Rolle der inter- und intrasegmentalen Verarbeitung in der Dual-Path-Struktur ersetzen kann. Schließlich erreichte das präsentierte Modell, das beide Ansätze kombiniert, mit deutlich weniger Berechnungen den Stand der Technik in verschiedenen Benchmark-Datensätzen.关键词汇翻译:- Speech separation: Sprachtrennung- Time-domain approaches: zeitdomänenbasierte Ansätze- Latent sequence feature: latentes Sequenzmerkmal- Learnable encoder: lernfähiger Encoder- Speaker-specific: sprecherbezogen- Asymmetric strategy: asymmetrische Strategie- Weight-shared decoder: gewichteteilter Decoder- Cross-speaker processing: Verarbeitung zwischen den Sprechern- Sequence length: Sequenzlänge- Dual-path models: Dual-Path-Modelle- Global and local Transformer blocks: globale und lokale Transformer-Blöcke- Inter-segmental and intra-segmental processing: intersementale und intrasegmentale Verarbeitung- State-of-the-art performance: Stand der Technik


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Trennen und Rekonstruieren: Asymmetrischer Enkoder-Dekoder für Sprachtrennung | Paper | HyperAI