HyperAIHyperAI

Command Palette

Search for a command to run...

SPGM: Priorisierung lokaler Merkmale zur Verbesserung der Sprachtrennleistung

Zusammenfassung

Dual-Path ist eine gängige Architektur für Sprachtrennmodelle (z. B. Sepformer), die lange Sequenzen in überlappende Blöcke aufteilt, um innerhalb dieser Blöcke lokale Merkmale und zwischen den Blöcken globale Beziehungen getrennt zu modellieren. Es hat sich jedoch gezeigt, dass die Inter-Block-Abschnitte – die die Hälfte der Parameter eines Dual-Path-Modells ausmachen – nur geringfügig zum Leistungsbeitrag beitragen. Daher schlagen wir den Single-Path Global Modulation (SPGM)-Block vor, um die Inter-Block-Abschnitte zu ersetzen. Der SPGM-Block erhält seinen Namen von seiner Struktur, die aus einem parameterfreien globalen Pooling-Modul und einem Modulationsmodul besteht, das lediglich 2 % der Gesamtparameter des Modells ausmacht. Der SPGM-Block ermöglicht es allen Transformer-Schichten im Modell, sich ausschließlich der Modellierung lokaler Merkmale zu widmen, wodurch das gesamte Modell ein einheitlicher, single-path-architektonischer Ansatz wird. SPGM erreicht eine SI-SDRi von 22,1 dB auf WSJ0-2Mix und 20,4 dB auf Libri2Mix, was die Leistung von Sepformer um jeweils 0,5 dB und 0,3 dB übertrifft und die Leistung aktueller SOTA-Modelle erreicht, jedoch mit bis zu achtmal weniger Parametern. Das Modell und die Gewichte sind unter huggingface.co/yipjiaqi/spgm verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp