Automatische Spracherkennung
Die automatische Spracherkennungstechnologie ist eine Technologie, die menschliche Sprache in Text umwandelt. Aufgrund der Vielfalt und Komplexität von Sprachsignalen können aktuelle Spracherkennungssysteme nur unter bestimmten Einschränkungen eine zufriedenstellende Leistung erzielen (sie sind nur in bestimmten Situationen anwendbar).
Definition der automatischen Spracherkennung
Das Ziel der automatischen Spracherkennungstechnologie besteht darin, Computern das „Diktieren“ kontinuierlicher gesprochener Sprache verschiedener Personen zu ermöglichen. Dies wird allgemein als „Sprachdiktiergerät“ bezeichnet. Es handelt sich um eine Technologie, die die Umwandlung von „Ton“ in „Text“ realisiert.
Leistungsbeeinflussende Faktoren
Die Leistungsfähigkeit eines Spracherkennungssystems hängt im Allgemeinen von den folgenden vier Faktoren ab:
- Erkennen Sie die Größe des Wortschatzes und die Komplexität der Rede;
- Die Qualität des Sprachsignals;
- Einzelner Lautsprecher oder mehrere Lautsprecher;
- Hardware.
Automatische Spracherkennungsklassifizierung
Die automatische Spracherkennung wird üblicherweise wie folgt klassifiziert:
- Je nach Benutzer des Systems kann es unterteilt werden in: Personenidentifizierungssystem und Personenidentifizierungssystem ohne Personenidentifizierung;
- Nach dem Systemwortschatz: kleiner Wortschatz, mittlerer Wortschatz und großes Wortschatzsystem;
- Nach der Eingabemethode der Sprache: isolierte Wörter, verbundene Wörter, kontinuierliches Sprachsystem usw.
- Entsprechend der Aussprache der Eingabestimme kann es unterteilt werden in: Lesestil, gesprochener Stil (natürliche Aussprache);
- Je nach Dialekthintergrund der Eingabesprache kann diese in Mandarin, Mandarin mit Dialekthintergrund und Dialekt-Spracherkennungssystem unterteilt werden.
- Je nach emotionalem Zustand der Eingabesprache wird zwischen neutralen Spracherkennungssystemen und emotionalen Spracherkennungssystemen unterschieden.
Modell zur automatischen Spracherkennung
Gängige Spracherkennungssysteme mit großem Wortschatz verwenden meist eine statistische Mustererkennungstechnologie. Ein typisches Spracherkennungssystem auf Basis statistischer Mustererkennungsverfahren besteht aus den folgenden Grundmodulen:
- Modul zur Signalverarbeitung und Merkmalsextraktion: Die Hauptaufgabe dieses Moduls besteht darin, Merkmale aus dem Eingangssignal zu extrahieren, die dann vom akustischen Modell verarbeitet werden. Gleichzeitig umfasst es im Allgemeinen auch einige Signalverarbeitungstechniken, um die Auswirkungen von Umgebungsgeräuschen, Kanälen, Lautsprechern und anderen Faktoren auf die Funktionen zu minimieren.
- Akustisches Modell: Typische Systeme werden meist auf Basis des Hidden-Markov-Modells erster Ordnung modelliert.
- Aussprachewörterbuch: Das Aussprachewörterbuch enthält den vom System verarbeitbaren Wortschatz und dessen Aussprache. Das Aussprachewörterbuch bietet tatsächlich eine Zuordnung zwischen Modellierungseinheiten des akustischen Modells und Modellierungseinheiten des Sprachmodells.
- Sprachmodell: Ein Sprachmodell modelliert die Sprache, auf die das System abzielt. Theoretisch können verschiedene Sprachmodelle, darunter reguläre Sprachen und kontextfreie Grammatiken, als Sprachmodelle verwendet werden, aber derzeit verwenden verschiedene Systeme im Allgemeinen statistische N-Grammatiken und deren Varianten.
- Decoder: Der Decoder ist eine der Kernkomponenten des Spracherkennungssystems. Seine Aufgabe besteht darin, basierend auf Akustik, Sprachmodell und Wörterbuch die Wortfolge zu finden, die das Signal mit der höchsten Wahrscheinlichkeit ausgeben kann.