Steigerung der Trennung von unbekannter Anzahl von Sprechern mit einem Transformer-Decoder-basierten Attraktor

Wir stellen ein neuartiges Sprachtrennmodell vor, das darauf ausgelegt ist, Mischungen mit einer unbekannten Anzahl von Sprechern zu trennen. Das vorgeschlagene Modell setzt sich aus drei Komponenten zusammen: 1) einem Dual-Path-Verarbeitungsblock, der spektro-temporale Muster modellieren kann; 2) einem auf einem Transformer-Decoder basierenden Attraktor-Berechnungsmodul (TDA), das mit einer unbekannten Anzahl von Sprechern umgehen kann; sowie 3) dreifachen Verarbeitungsblöcken, die Beziehungen zwischen Sprechern modellieren können. Gegeben eine feste, kleine Menge gelernter Sprecher-Abfragen und die Mischungs-Embedding, die durch die Dual-Path-Blöcke erzeugt werden, schätzt das TDA die Beziehungen zwischen diesen Abfragen und generiert für jeden Sprecher einen Attraktor-Vektor. Diese geschätzten Attraktoren werden anschließend durch Feature-wise Linear Modulation Conditioning mit dem Mischungs-Embedding kombiniert, wodurch eine Sprecher-Dimension entsteht. Das so konditionierte Mischungs-Embedding wird dann an die endgültigen dreifachen Verarbeitungsblöcke weitergeleitet, die die Dual-Path-Blöcke um einen zusätzlichen Pfad zur Verarbeitung inter-speaker-Beziehungen erweitern. Das vorgeschlagene Verfahren übertrifft die bisher besten in der Literatur berichteten Ergebnisse und erreicht auf WSJ0-2 und 3mix jeweils eine Verbesserung von 24,0 bzw. 23,7 dB SI-SDR (SI-SDRi) mit einem einzigen Modell, das zur Trennung von 2- und 3-Sprecher-Mischungen trainiert wurde. Zudem zeigt das vorgeschlagene Modell eine starke Leistungsfähigkeit und Generalisierbarkeit bei der Quellenzählung und der Trennung von Mischungen mit bis zu fünf Sprechern.