HyperAIHyperAI
vor 15 Tagen

SPGM: Priorisierung lokaler Merkmale zur Verbesserung der Sprachtrennleistung

Jia Qi Yip, Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Dianwen Ng, Eng Siong Chng, Bin Ma
SPGM: Priorisierung lokaler Merkmale zur Verbesserung der Sprachtrennleistung
Abstract

Dual-Path ist eine gängige Architektur für Sprachtrennmodelle (z. B. Sepformer), die lange Sequenzen in überlappende Blöcke aufteilt, um innerhalb dieser Blöcke lokale Merkmale und zwischen den Blöcken globale Beziehungen getrennt zu modellieren. Es hat sich jedoch gezeigt, dass die Inter-Block-Abschnitte – die die Hälfte der Parameter eines Dual-Path-Modells ausmachen – nur geringfügig zum Leistungsbeitrag beitragen. Daher schlagen wir den Single-Path Global Modulation (SPGM)-Block vor, um die Inter-Block-Abschnitte zu ersetzen. Der SPGM-Block erhält seinen Namen von seiner Struktur, die aus einem parameterfreien globalen Pooling-Modul und einem Modulationsmodul besteht, das lediglich 2 % der Gesamtparameter des Modells ausmacht. Der SPGM-Block ermöglicht es allen Transformer-Schichten im Modell, sich ausschließlich der Modellierung lokaler Merkmale zu widmen, wodurch das gesamte Modell ein einheitlicher, single-path-architektonischer Ansatz wird. SPGM erreicht eine SI-SDRi von 22,1 dB auf WSJ0-2Mix und 20,4 dB auf Libri2Mix, was die Leistung von Sepformer um jeweils 0,5 dB und 0,3 dB übertrifft und die Leistung aktueller SOTA-Modelle erreicht, jedoch mit bis zu achtmal weniger Parametern. Das Modell und die Gewichte sind unter huggingface.co/yipjiaqi/spgm verfügbar.

SPGM: Priorisierung lokaler Merkmale zur Verbesserung der Sprachtrennleistung | Neueste Forschungsarbeiten | HyperAI