HyperAIHyperAI
vor 3 Monaten

Steigerung selbstüberwachter Embeddings für die Sprachverbesserung

Kuo-Hsuan Hung, Szu-wei Fu, Huan-Hsin Tseng, Hsin-Tien Chiang, Yu Tsao, Chii-Wann Lin
Steigerung selbstüberwachter Embeddings für die Sprachverbesserung
Abstract

Die selbstüberwachte Lern-(SSL-)Darstellung für Sprache hat auf mehreren nachgeschalteten Aufgaben Zustand der Kunst (SOTA) erreicht. Dennoch besteht weiterhin Verbesserungspotenzial bei Aufgaben der Sprachverbesserung (SE). In dieser Studie nutzen wir eine cross-domain-Feature-Lösung, um das Problem anzugehen, dass SSL-Einbettungen möglicherweise feinabgestimmte Informationen fehlen, um Sprachsignale rekonstruieren zu können. Durch die Integration der SSL-Darstellung mit dem Spektrogramm lässt sich das Ergebnis erheblich verbessern. Darüber hinaus untersuchen wir die Beziehung zwischen der Rauschrobustheit der SSL-Darstellung – gemessen über die Clean-Noisy-Distanz (CN-Distanz) – und der Bedeutung einzelner Schichten für die SE. Dabei stellen wir fest, dass SSL-Darstellungen mit geringerer Rauschrobustheit eine größere Bedeutung für die SE aufweisen. Zudem zeigen unsere Experimente am VCTK-DEMAND-Datensatz, dass die Feinabstimmung einer SSL-Darstellung mit einem SE-Modell die SOTA-SSL-basierten SE-Methoden hinsichtlich PESQ, CSIG und COVL übertrifft, ohne komplizierte Netzarchitekturen einzusetzen. In weiteren Experimenten beobachten wir, dass die CN-Distanz in den SSL-Einbettungen nach der Feinabstimmung ansteigt. Diese Ergebnisse bestätigen unsere Erwartungen und könnten zukünftig zur Gestaltung von SSL-Trainings für SE-Anwendungen beitragen.

Steigerung selbstüberwachter Embeddings für die Sprachverbesserung | Forschungsarbeiten | HyperAI