Verallgemeinerter End-to-End-Verlust für Sprecherauthentifizierung

In dieser Arbeit schlagen wir eine neue Verlustfunktion vor, die generalisierte End-to-End (GE2E)-Verlustfunktion, welche das Training von Sprecherauthentifizierungsmodellen effizienter gestaltet als unsere bisherige tupelbasierte End-to-End (TE2E)-Verlustfunktion. Im Gegensatz zu TE2E aktualisiert die GE2E-Verlustfunktion das Netzwerk so, dass sie Beispiele hervorhebt, die in jedem Schritt des Trainingsprozesses schwierig zu verifizieren sind. Zudem erfordert der GE2E-Verlust keine initiale Phase der Beispielauswahl. Dank dieser Eigenschaften verringert unser Modell mit der neuen Verlustfunktion den Fehlerrate bei der Sprecherauthentifizierung (Equal Error Rate, EER) um mehr als 10 % und verkürzt gleichzeitig die Trainingszeit um 60 %. Wir stellen außerdem die MultiReader-Technik vor, die es uns ermöglicht, Domänenanpassung durchzuführen – das Training eines genauer arbeitenden Modells, das mehrere Schlüsselwörter (z.B. "OK Google" und "Hey Google") sowie verschiedene Dialekte unterstützt.