HyperAIHyperAI
vor 2 Monaten

Trennen und Rekonstruieren: Asymmetrischer Enkoder-Dekoder für Sprachtrennung

Ui-Hyeop Shin; Sangyoun Lee; Taehan Kim; Hyung-Min Park
Trennen und Rekonstruieren: Asymmetrischer Enkoder-Dekoder für Sprachtrennung
Abstract

Im Bereich der Sprachtrennung haben zeitdomänenbasierte Ansätze erfolgreich die Zeit-Frequenz-Domäne durch latente Sequenzmerkmale aus einem lernfähigen Encoder ersetzt. Traditionell wird das Merkmal in der letzten Netzwerkestufe in sprecherbezogene Merkmale aufgeteilt. Stattdessen schlagen wir eine intuitivere Strategie vor, die die Merkmalssequenz bereits früher trennt, indem sie die Anzahl der Sprecher als zusätzliche Dimension erweitert. Um dies zu erreichen, wird eine asymmetrische Strategie vorgestellt, bei der der Encoder und der Decoder getrennt werden, um unterschiedliche Verarbeitungen bei Trennungsaufgaben durchzuführen. Der Encoder analysiert die Merkmale, und die Ausgabe des Encoders wird in die Anzahl der zu trennenden Sprecher aufgeteilt. Die getrennten Sequenzen werden dann durch den gewichteteilen Decoder rekonstruiert, der auch die Verarbeitung zwischen den Sprechern durchführt. Ohne sich auf Sprecherinformationen zu stützen, lernt das gewichteteilte Netzwerk im Decoder direkt, Merkmale unter Verwendung eines Trennungsziels zu diskriminieren. Zudem wurden traditionelle Methoden zur Leistungssteigerung angewendet, indem sie die Sequenzlänge verlängerten, was zur Einführung von Dual-Path-Modellen führte. Diese verarbeiten längere Sequenzen effektiv, indem sie diese in Segmente unterteilen. Um dies anzugehen, führen wir globale und lokale Transformer-Blöcke ein, die lange Sequenzen ohne Segmentierung und Dual-Path-Verarbeitung effizienter direkt verarbeiten können. Die experimentellen Ergebnisse zeigten, dass diese asymmetrische Struktur effektiv ist und dass die Kombination der vorgeschlagenen globalen und lokalen Transformer ausreichend die Rolle der inter- und intrasegmentalen Verarbeitung in der Dual-Path-Struktur ersetzen kann. Schließlich erreichte das präsentierte Modell, das beide Ansätze kombiniert, mit deutlich weniger Berechnungen den Stand der Technik in verschiedenen Benchmark-Datensätzen.关键词汇翻译:- Speech separation: Sprachtrennung- Time-domain approaches: zeitdomänenbasierte Ansätze- Latent sequence feature: latentes Sequenzmerkmal- Learnable encoder: lernfähiger Encoder- Speaker-specific: sprecherbezogen- Asymmetric strategy: asymmetrische Strategie- Weight-shared decoder: gewichteteilter Decoder- Cross-speaker processing: Verarbeitung zwischen den Sprechern- Sequence length: Sequenzlänge- Dual-path models: Dual-Path-Modelle- Global and local Transformer blocks: globale und lokale Transformer-Blöcke- Inter-segmental and intra-segmental processing: intersementale und intrasegmentale Verarbeitung- State-of-the-art performance: Stand der Technik

Trennen und Rekonstruieren: Asymmetrischer Enkoder-Dekoder für Sprachtrennung | Neueste Forschungsarbeiten | HyperAI