HyperAIHyperAI

Command Palette

Search for a command to run...

Optimieren Sie das Wesentliche: Training von DNN-HMM-Schlüsselworterkennungsmodellen unter Verwendung der Endmetrik

Ashish Shrivastava Arnav Kundu Chandra Dhir Devang Naik Oncel Tuzel

Zusammenfassung

Methoden basierend auf tiefen neuronalen Netzen und verborgenen Markov-Modellen (DNN-HMM) wurden erfolgreich bei zahlreichen immer-eingeschalteten Keyword-Spotting-Algorithmen eingesetzt, die ein Wake Word erkennen, um ein Gerät zu aktivieren. Das DNN prognostiziert die Zustandswahrscheinlichkeiten eines gegebenen Sprachframes, während der HMM-Decoder die DNN-Prognosen mehrerer Sprachframes kombiniert, um den Score für die Keyword-Erkennung zu berechnen. In vorherigen Ansätzen wurde das DNN unabhängig von den HMM-Parametern trainiert, um die Kreuzentropie zwischen den vorhergesagten und den ground-truth-Zustandswahrscheinlichkeiten zu minimieren. Die Diskrepanz zwischen dem DNN-Trainingsverlust (Kreuzentropie) und der Endmetrik (Erkennungsscore) stellt die Hauptursache für die suboptimalen Leistungen beim Keyword-Spotting dar. Wir adressieren dieses Verlust-Metrik-Mismatch mit einer neuartigen end-to-end-Trainingsstrategie, die die DNN-Parameter durch Optimierung des Erkennungsscores lernt. Dazu machen wir den HMM-Decoder (dynamische Programmierung) differenzierbar und propagieren rückwärts durch ihn, um den Score für das Keyword zu maximieren und die Scores für Nicht-Keyword-Sprachsegmente zu minimieren. Unser Ansatz erfordert keine Änderung der Modellarchitektur oder des Inferenzframeworks; daher entsteht keine zusätzliche Belastung hinsichtlich Speicherplatz oder Rechenleistung zur Laufzeit. Zudem zeigen wir eine erhebliche Reduktion der Falsch-Ablehnungsrate (FRR) bei gleichzeitiger Beibehaltung der Falsch-Auslösung (FAR), wobei die Verbesserung gegenüber der unabhängigen DNN-Trainingsmethode über 70 % beträgt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp