HEiMDaL: Hoch effiziente Methode zur Erkennung und Lokalisierung von Wake-Words

Streaming Keyword Spotting ist eine weit verbreitete Lösung zur Aktivierung von Sprachassistenten. Tiefe neuronale Netze mit verbundenen verborgenen Markovmodellen (DNN-HMM) haben sich in diesem Bereich als effizient und weit verbreitet erwiesen, vor allem aufgrund der Fähigkeit, den Beginn und das Ende des Weckworts mit geringem Rechenaufwand zu detektieren und zu identifizieren. Allerdings leiden solche hybriden Systeme unter einer Verlustmetrik-Abweichung, wenn DNN und HMM unabhängig voneinander trainiert werden. Die sequenzdiskriminative Trainierung kann diese Verlustmetrik-Abweichung aufgrund der inhärent markovschen Natur der Operation nicht vollständig beheben. Wir stellen ein modulares, geringes Speicherbedarf aufweisendes CNN-Modell namens HEiMDaL vor, das zur Erkennung und Lokalisierung von Schlüsselwörtern unter Streaming-Bedingungen eingesetzt wird. Wir führen eine auf Alignment basierende Klassifikationsverlustfunktion ein, um das Auftreten des Schlüsselworts zu detektieren, sowie einen Offset-Verlust, um den Beginn des Schlüsselworts vorherzusagen. HEiMDaL erreicht eine Reduktion der Erkennungsfehler um 73 % bei gleichzeitiger Erhaltung der Lokalisierungsgenauigkeit und weist denselben Speicherbedarf wie bestehende DNN-HMM-Modelle für ein gegebenes Weckwort auf.