HyperAIHyperAI

Command Palette

Search for a command to run...

PoCoNet: Bessere Sprachverbesserung durch frequenzpositionale Embeddings, halbüberwachte Gesprächsdaten und verzerrte Verlustfunktion

Umut Isik Ritwik Giri Neerad Phansalkar Jean-Marc Valin Karim Helwani Arvindh Krishnaswamy

Zusammenfassung

Neuronale Netzwerkanwendungen profitieren in der Regel von größeren Modellen, doch für derzeitige Sprachverbesserungsmodelle leiden große Netzwerke oft an einer verminderten Robustheit gegenüber der Vielzahl realer Anwendungsfälle, die über die im Trainingsdatensatz enthaltenen hinausgehen. Wir stellen mehrere Innovationen vor, die zu leistungsfähigeren großen neuronalen Netzwerken für die Sprachverbesserung führen. Der neuartige PoCoNet-Architekturtyp ist ein konvolutionelles neuronales Netzwerk, das mithilfe von frequenzpositionellen Embeddings in den frühen Schichten effizienter frequenzabhängige Merkmale aufbaut. Eine semi-supervised Methode ermöglicht es, die Menge an Gesprächstrainingdaten durch Vorverbesserung von geräuschbehafteten Datensätzen zu erhöhen, wodurch die Leistung auf realen Aufnahmen verbessert wird. Eine neue Verlustfunktion, die darauf abzielt, die Sprachqualität besser zu bewahren, unterstützt die Optimierung dabei, menschlichen Wahrnehmungsmeinungen zur Sprachqualität besser zu entsprechen. Ablationsstudien sowie objektive und subjektive Bewertungsmetriken belegen die Vorteile der vorgeschlagenen Verbesserungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp