HyperAIHyperAI
vor 4 Monaten

Explizite Schätzung von Amplituden- und Phasenspektren in Parallel für hochwertige Sprachverbesserung

Lu, Ye-Xin ; Ai, Yang ; Ling, Zhen-Hua
Explizite Schätzung von Amplituden- und Phasenspektren in Parallel für
hochwertige Sprachverbesserung
Abstract

Phaseninformation hat einen erheblichen Einfluss auf die Wahrnehmungsqualität und Verständlichkeit von Sprache. Bestehende Methoden der Sprachverbesserung stoßen jedoch an Grenzen bei der expliziten Phasenschätzung aufgrund der nicht-strukturierten Natur und des Umhüllungscharakters der Phase, was zu einer Engstelle in der Verbesserung der Sprachqualität führt. Um dieses Problem zu überwinden, schlagen wir in dieser Arbeit das MP-SENet vor, ein neues Sprachverbesserungsnetzwerk, das Magnitudenspektren und Phasenspektren explizit parallel verbessert.Das vorgeschlagene MP-SENet besteht aus einer Transformer-integrierten Encoder-Decoder-Architektur. Der Encoder zielt darauf ab, die eingehenden verzerrten Magnitudenspektren und Phasenspektren in Zeit-Frequenz-Darstellungen zu kodieren, die anschließend in Zeit-Frequenz-Transformern eingespeist werden, um zeitliche und frequenzabhängige Korrelationen alternierend zu erfassen. Der Decoder umfasst einen Magnitudenmaskierungsdecoder und einen Phasendecoder. Diese verbessern die Magnitudenspektren und die umhüllten Phasenspektren direkt durch die Integration einer Magnitudenmaskierungsarchitektur und einer parallelen Phasenschätzarchitektur.Mehrstufige Verlustfunktionen, explizit definiert für die Magnitudenspektren, umhüllten Phasenspektren und kurzzeitigen komplexen Spektren, werden verwendet, um das MP-SENet-Modell gemeinsam zu trainieren. Ein metrischer Diskriminator wird zudem eingesetzt, um den unvollständigen Zusammenhang zwischen diesen Verlustfunktionen und der menschlichen Hörwahrnehmung auszugleichen. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes MP-SENet über mehrere Sprachverbesserungsaufgaben hinweg eine Spitzenleistung erzielt, darunter Sprachrauscharmung (speech denoising), Entverberation (dereverberation) und Bandbreitenvergrößerung (bandwidth extension). Verglichen mit bestehenden phasenbewussten Methoden zur Sprachverbesserung reduziert es durch die explizite Phasenschätzung weiter den Kompensationseffekt zwischen Magnitude und Phase, was die Wahrnehmungsqualität des verbesserten Sprechsignals erhöht.