Mehrstufiges Aufmerksamkeitsmechanismus für die Spracherkennung von Schlagwörtern

Als wichtiger Bestandteil der Spracherkennungstechnologie wurde die automatische Schlüsselworterkennung in den letzten Jahren intensiv untersucht. Diese Technologie gewinnt insbesondere in Situationen mit begrenzten Infrastrukturen und Rechenressourcen, wie z.B. bei der Sprachbefehlserkennung in Fahrzeugen und Roboterinteraktion, an Bedeutung. Derzeit basieren die gängigen Methoden für die automatische Schlüsselworterkennung auf Long Short-Term Memory (LSTM)-Netzwerken mit Aufmerksamkeitsmechanismus. Allerdings sind die berechneten Aufmerksamkeitsgewichte verzerrt, da während der Merkmalsextraktion unvermeidliche Informationsverluste für die LSTM-Schicht auftreten. In dieser Arbeit wird ein neuer Ansatz, nämlich das Mehrschicht-Aufmerksamkeitsmodell (Multi-layer Attention Mechanism), vorgeschlagen, um das Problem der ungenauen Aufmerksamkeitsgewichte zu lösen. Die Kernidee besteht darin, dass neben dem konventionellen Aufmerksamkeitsmechanismus Informationen aus Schichten vor der Merkmalsextraktion und dem LSTM-Netzwerk in die Berechnung der Aufmerksamkeitsgewichte eingeführt werden. Dadurch sind die Aufmerksamkeitsgewichte genauer, da das Gesamtmodell präzisere und fokussiertere Bereiche haben kann. Wir führen eine umfassende Vergleichs- und Analysestudie durch, um die Leistungsfähigkeit des Keyword Spotting auf Convolutional Neural Networks (CNNs), bidirektionale LSTM-Recurrent Neural Networks (Bi-LSTM RNNs) und Rekurrenten Neuronalen Netzen mit dem vorgeschlagenen Aufmerksamkeitsmechanismus anhand der Google Speech Command Datasets V2 zu evaluieren. Die experimentellen Ergebnisse zeigen gute Resultate für die vorgeschlagene Methode und belegen ihre Gültigkeit. Das vorgeschlagene Mehrschicht-Aufmerksamkeitsmodell kann auch für andere Forschungen im Bereich des Objekterkennens nützlich sein.