HyperAIHyperAI
vor 17 Tagen

Optimieren Sie das Wesentliche: Training von DNN-HMM-Schlüsselworterkennungsmodellen unter Verwendung der Endmetrik

Ashish Shrivastava, Arnav Kundu, Chandra Dhir, Devang Naik, Oncel Tuzel
Optimieren Sie das Wesentliche: Training von DNN-HMM-Schlüsselworterkennungsmodellen unter Verwendung der Endmetrik
Abstract

Methoden basierend auf tiefen neuronalen Netzen und verborgenen Markov-Modellen (DNN-HMM) wurden erfolgreich bei zahlreichen immer-eingeschalteten Keyword-Spotting-Algorithmen eingesetzt, die ein Wake Word erkennen, um ein Gerät zu aktivieren. Das DNN prognostiziert die Zustandswahrscheinlichkeiten eines gegebenen Sprachframes, während der HMM-Decoder die DNN-Prognosen mehrerer Sprachframes kombiniert, um den Score für die Keyword-Erkennung zu berechnen. In vorherigen Ansätzen wurde das DNN unabhängig von den HMM-Parametern trainiert, um die Kreuzentropie zwischen den vorhergesagten und den ground-truth-Zustandswahrscheinlichkeiten zu minimieren. Die Diskrepanz zwischen dem DNN-Trainingsverlust (Kreuzentropie) und der Endmetrik (Erkennungsscore) stellt die Hauptursache für die suboptimalen Leistungen beim Keyword-Spotting dar. Wir adressieren dieses Verlust-Metrik-Mismatch mit einer neuartigen end-to-end-Trainingsstrategie, die die DNN-Parameter durch Optimierung des Erkennungsscores lernt. Dazu machen wir den HMM-Decoder (dynamische Programmierung) differenzierbar und propagieren rückwärts durch ihn, um den Score für das Keyword zu maximieren und die Scores für Nicht-Keyword-Sprachsegmente zu minimieren. Unser Ansatz erfordert keine Änderung der Modellarchitektur oder des Inferenzframeworks; daher entsteht keine zusätzliche Belastung hinsichtlich Speicherplatz oder Rechenleistung zur Laufzeit. Zudem zeigen wir eine erhebliche Reduktion der Falsch-Ablehnungsrate (FRR) bei gleichzeitiger Beibehaltung der Falsch-Auslösung (FAR), wobei die Verbesserung gegenüber der unabhängigen DNN-Trainingsmethode über 70 % beträgt.