HyperAIHyperAI

Command Palette

Search for a command to run...

Steigerung der Trennung von unbekannter Anzahl von Sprechern mit einem Transformer-Decoder-basierten Attraktor

Younglo Lee Shukjae Choi Byeong-Yeol Kim Zhong-Qiu Wang Shinji Watanabe

Zusammenfassung

Wir stellen ein neuartiges Sprachtrennmodell vor, das darauf ausgelegt ist, Mischungen mit einer unbekannten Anzahl von Sprechern zu trennen. Das vorgeschlagene Modell setzt sich aus drei Komponenten zusammen: 1) einem Dual-Path-Verarbeitungsblock, der spektro-temporale Muster modellieren kann; 2) einem auf einem Transformer-Decoder basierenden Attraktor-Berechnungsmodul (TDA), das mit einer unbekannten Anzahl von Sprechern umgehen kann; sowie 3) dreifachen Verarbeitungsblöcken, die Beziehungen zwischen Sprechern modellieren können. Gegeben eine feste, kleine Menge gelernter Sprecher-Abfragen und die Mischungs-Embedding, die durch die Dual-Path-Blöcke erzeugt werden, schätzt das TDA die Beziehungen zwischen diesen Abfragen und generiert für jeden Sprecher einen Attraktor-Vektor. Diese geschätzten Attraktoren werden anschließend durch Feature-wise Linear Modulation Conditioning mit dem Mischungs-Embedding kombiniert, wodurch eine Sprecher-Dimension entsteht. Das so konditionierte Mischungs-Embedding wird dann an die endgültigen dreifachen Verarbeitungsblöcke weitergeleitet, die die Dual-Path-Blöcke um einen zusätzlichen Pfad zur Verarbeitung inter-speaker-Beziehungen erweitern. Das vorgeschlagene Verfahren übertrifft die bisher besten in der Literatur berichteten Ergebnisse und erreicht auf WSJ0-2 und 3mix jeweils eine Verbesserung von 24,0 bzw. 23,7 dB SI-SDR (SI-SDRi) mit einem einzigen Modell, das zur Trennung von 2- und 3-Sprecher-Mischungen trainiert wurde. Zudem zeigt das vorgeschlagene Modell eine starke Leistungsfähigkeit und Generalisierbarkeit bei der Quellenzählung und der Trennung von Mischungen mit bis zu fünf Sprechern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp