HyperAIHyperAI
vor 15 Tagen

Steigerung der Trennung von unbekannter Anzahl von Sprechern mit einem Transformer-Decoder-basierten Attraktor

Younglo Lee, Shukjae Choi, Byeong-Yeol Kim, Zhong-Qiu Wang, Shinji Watanabe
Steigerung der Trennung von unbekannter Anzahl von Sprechern mit einem Transformer-Decoder-basierten Attraktor
Abstract

Wir stellen ein neuartiges Sprachtrennmodell vor, das darauf ausgelegt ist, Mischungen mit einer unbekannten Anzahl von Sprechern zu trennen. Das vorgeschlagene Modell setzt sich aus drei Komponenten zusammen: 1) einem Dual-Path-Verarbeitungsblock, der spektro-temporale Muster modellieren kann; 2) einem auf einem Transformer-Decoder basierenden Attraktor-Berechnungsmodul (TDA), das mit einer unbekannten Anzahl von Sprechern umgehen kann; sowie 3) dreifachen Verarbeitungsblöcken, die Beziehungen zwischen Sprechern modellieren können. Gegeben eine feste, kleine Menge gelernter Sprecher-Abfragen und die Mischungs-Embedding, die durch die Dual-Path-Blöcke erzeugt werden, schätzt das TDA die Beziehungen zwischen diesen Abfragen und generiert für jeden Sprecher einen Attraktor-Vektor. Diese geschätzten Attraktoren werden anschließend durch Feature-wise Linear Modulation Conditioning mit dem Mischungs-Embedding kombiniert, wodurch eine Sprecher-Dimension entsteht. Das so konditionierte Mischungs-Embedding wird dann an die endgültigen dreifachen Verarbeitungsblöcke weitergeleitet, die die Dual-Path-Blöcke um einen zusätzlichen Pfad zur Verarbeitung inter-speaker-Beziehungen erweitern. Das vorgeschlagene Verfahren übertrifft die bisher besten in der Literatur berichteten Ergebnisse und erreicht auf WSJ0-2 und 3mix jeweils eine Verbesserung von 24,0 bzw. 23,7 dB SI-SDR (SI-SDRi) mit einem einzigen Modell, das zur Trennung von 2- und 3-Sprecher-Mischungen trainiert wurde. Zudem zeigt das vorgeschlagene Modell eine starke Leistungsfähigkeit und Generalisierbarkeit bei der Quellenzählung und der Trennung von Mischungen mit bis zu fünf Sprechern.

Steigerung der Trennung von unbekannter Anzahl von Sprechern mit einem Transformer-Decoder-basierten Attraktor | Neueste Forschungsarbeiten | HyperAI