vor 17 Tagen

Dense-TSNet: Dicht verbundene zwei-stufige Struktur für ultra-leichte Sprachverbesserung

Zizhen Lin, Yuanle Li, Junyu Wang, Ruili Li

Abstract

Sprachverbesserung zielt darauf ab, die Sprachqualität und Verständlichkeit in lautstarken Umgebungen zu verbessern. In jüngster Zeit konzentrieren sich Fortschritte vor allem auf tiefe neuronale Netze, wobei insbesondere die Two-Stage-(TS)-Architektur zur Verbesserung der Merkmalsextraktion eingesetzt wird. Dennoch bleiben die Komplexität und Größe dieser Modelle erheblich, was ihre Anwendbarkeit in ressourcenbeschränkten Szenarien einschränkt. Die Gestaltung von Modellen, die für Edge-Geräte geeignet sind, stellt besondere Herausforderungen dar. Eng begrenzte, leichtgewichtige Modelle stoßen oft auf Leistungsengpässe infolge ungleichmäßiger Verlustlandschaften. Zudem fehlen fortschrittlichen Operatoren wie Transformers oder Mamba in der praktischen Anwendung die Anpassungsfähigkeit und Effizienz, die herkömmliche Faltungsneuronale Netze (CNNs) bei der Realisierung in Echtanwendungen bieten. Um diese Herausforderungen zu bewältigen, stellen wir Dense-TSNet vor – ein innovatives, ultraleichtgewichtiges Netzwerk für die Sprachverbesserung. Unser Ansatz nutzt eine neuartige Dense Two-Stage-(Dense-TS)-Architektur, die im Vergleich zur klassischen Two-Stage-Architektur eine robustere Verbesserung der Zielfunktion in den späteren Trainingsphasen gewährleistet. Dies führt zu einer verbesserten Endleistung und überwindet die frühe Konvergenzbeschränkungen des Baseline-Modells. Zudem führen wir den Multi-View Gaze Block (MVGB) ein, der die Merkmalsextraktion durch die Integration globaler, kanalbasierter und lokaler Perspektiven mittels CNNs verbessert. Darüber hinaus diskutieren wir, wie die Wahl der Verlustfunktion die wahrgenommene Sprachqualität beeinflusst. Dense-TSNet zeigt vielversprechende Ergebnisse mit einer kompakten Modellgröße von etwa 14.000 Parametern und ist daher besonders gut für die Implementierung in ressourcenbeschränkten Umgebungen geeignet.