Token-Level Ensemble Distillation für die Graphem-zu-Phonem-Umsetzung

Die Graphem-zu-Phonem-Umsetzung (G2P) ist eine wichtige Aufgabe in automatischen Spracherkennungssystemen und Text-zu-Sprache-Systemen. Kürzlich wird die G2P-Umsetzung als eine Sequenz-zu-Sequenz-Aufgabe betrachtet und durch RNN- oder CNN-basierte Encoder-Decoder-Architekturen modelliert. Allerdings haben frühere Arbeiten praktische Probleme bei der Implementierung des G2P-Modells in einem Produktionsumfeld nicht berücksichtigt, wie zum Beispiel die Nutzung zusätzlicher unannotierter Daten zur Verbesserung der Genauigkeit sowie die Reduzierung der Modellgröße für Online-Bereitstellungen. In dieser Arbeit schlagen wir eine tokenbasierte Ensemble-Distillation für die G2P-Umsetzung vor, die (1) durch das Extrahieren von Wissen aus zusätzlichen unannotierten Daten die Genauigkeit erhöht und (2) die Modellgröße reduziert, während sie eine hohe Genauigkeit beibehält. Beides ist sehr praktisch und hilfreich für Online-Produktionssysteme. Wir verwenden tokenbasierte Knowledge-Distillation, die bessere Ergebnisse als die sequenzbasierte Variante liefert. Darüber hinaus setzen wir den Transformer anstelle von RNN- oder CNN-basierten Modellen ein, um die Genauigkeit der G2P-Umsetzung weiter zu verbessern. Experimente mit dem öffentlich verfügbaren CMUDict-Datensatz und einem internen englischen Datensatz zeigen die Effektivität unserer vorgeschlagenen Methode. Insbesondere erreicht unsere Methode einen WER von 19,88 % auf dem CMUDict-Datensatz, was um mehr als 4,22 % WER besser ist als frühere Arbeiten und neue Stand-of-the-Art-Ergebnisse setzt.