Akustisches ModellWird verwendet, um die Wahrscheinlichkeit zu berechnen, mit der das Modell eine Sprachwellenform generiert. Es ist einer der wichtigsten Teile des Spracherkennungssystems und verursacht den größten Teil des Rechenaufwands, der die Leistung des Spracherkennungssystems bestimmt.
Entwicklungsgeschichte
- Traditionelle Methoden: Basierend auf Hidden-Markov-Akustikmodellen, wie etwa der GMM-HMM-Modellierungsmethode – GMM wird verwendet, um die Verteilung akustischer Sprachmerkmale zu modellieren, und HMM wird verwendet, um die zeitliche Natur von Sprachsignalen zu modellieren;
- Tiefes neuronales Netzwerk: wird für sprachakustische Modelle verwendet. Hinton und seine Studenten verwendeten 2009 ein vollständig verbundenes tiefes neuronales Feedforward-Netzwerk zur Spracherkennung, das im TIMIT-Datensatz eine bessere Leistung als das auf DNN-HMM basierende akustische Modell erzielte.
- Nutzung von Kontextinformationen variabler Länge: Im Jahr 2015 wurden akustische Modelle eingeführt, die Sprachinformationen variabler Länge nutzen. Die optimale Länge der Sprachinformationen wird durch Phoneme und Sprechgeschwindigkeit beeinflusst. Kontextfenster mit fester Länge sind in DNN-HMM-Hybridsystemen nicht die beste Wahl. Neue Modelle der letzten Jahre basieren hauptsächlich auf rekurrierenden neuronalen Netzwerken (RNN) und Convolutional Neural Networks (CNN).
Verweise
【1】Akustisches Modell der Spracherkennungstechnologie – 52AI Künstliche Intelligenz – CSDN-Blog
【2】Yu Dong, stellvertretender Direktor des Tencent AI Lab: Fortschritte bei akustischen Modellen auf Basis von Deep Learning in den letzten zwei Jahren | Maschinenherz