vor 3 Monaten

PoCoNet: Bessere Sprachverbesserung durch frequenzpositionale Embeddings, halbüberwachte Gesprächsdaten und verzerrte Verlustfunktion

Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, Arvindh Krishnaswamy

Abstract

Neuronale Netzwerkanwendungen profitieren in der Regel von größeren Modellen, doch für derzeitige Sprachverbesserungsmodelle leiden große Netzwerke oft an einer verminderten Robustheit gegenüber der Vielzahl realer Anwendungsfälle, die über die im Trainingsdatensatz enthaltenen hinausgehen. Wir stellen mehrere Innovationen vor, die zu leistungsfähigeren großen neuronalen Netzwerken für die Sprachverbesserung führen. Der neuartige PoCoNet-Architekturtyp ist ein konvolutionelles neuronales Netzwerk, das mithilfe von frequenzpositionellen Embeddings in den frühen Schichten effizienter frequenzabhängige Merkmale aufbaut. Eine semi-supervised Methode ermöglicht es, die Menge an Gesprächstrainingdaten durch Vorverbesserung von geräuschbehafteten Datensätzen zu erhöhen, wodurch die Leistung auf realen Aufnahmen verbessert wird. Eine neue Verlustfunktion, die darauf abzielt, die Sprachqualität besser zu bewahren, unterstützt die Optimierung dabei, menschlichen Wahrnehmungsmeinungen zur Sprachqualität besser zu entsprechen. Ablationsstudien sowie objektive und subjektive Bewertungsmetriken belegen die Vorteile der vorgeschlagenen Verbesserungen.