Reconnaissance Automatique De La Parole
La technologie de reconnaissance automatique de la parole est une technologie qui convertit la parole humaine en texte. En raison de la diversité et de la complexité des signaux vocaux, le système actuel de reconnaissance vocale ne peut atteindre des performances satisfaisantes que sous certaines restrictions (il ne peut être appliqué qu'à certaines occasions spécifiques).
Définition de la reconnaissance automatique de la parole
L'objectif de la technologie de reconnaissance automatique de la parole est de permettre aux ordinateurs de « dicter » un discours continu prononcé par différentes personnes, ce qui est communément appelé « machine à dicter la voix ». C'est une technologie qui réalise la conversion du « son » en « texte ».
Facteurs influençant la performance
Les performances d’un système de reconnaissance vocale dépendent généralement des quatre facteurs suivants :
- Reconnaître la taille du vocabulaire et la complexité du discours ;
- La qualité du signal vocal ;
- Un seul orateur ou plusieurs orateurs ;
- matériel.
Classification par reconnaissance automatique de la parole
La reconnaissance automatique de la parole est généralement classée de la manière suivante :
- Selon l'utilisateur du système, il peut être divisé en : système d'identification de personne spécifique et de personne non spécifique ;
- Selon le système de vocabulaire : petit vocabulaire, vocabulaire moyen et grand vocabulaire ;
- Selon le mode de saisie de la parole : mots isolés, mots connectés, système de parole continue, etc.
- Selon la prononciation de la voix d'entrée, elle peut être divisée en : style de lecture, style parlé (prononciation naturelle) ;
- Selon le contexte dialectal du discours d'entrée, il peut être divisé en : mandarin, mandarin avec contexte dialectal et système de reconnaissance vocale dialectale ;
- Selon l'état émotionnel du discours d'entrée, il est divisé en systèmes de reconnaissance de la parole neutre et de la parole émotionnelle.
Modèle de reconnaissance automatique de la parole
Les systèmes traditionnels de reconnaissance vocale à vocabulaire étendu utilisent principalement une technologie de reconnaissance de formes statistiques. Un système de reconnaissance vocale typique basé sur la méthode de reconnaissance de formes statistiques se compose des modules de base suivants :
- Module de traitement du signal et d'extraction de caractéristiques : La tâche principale de ce module est d'extraire des caractéristiques du signal d'entrée pour les traiter par le modèle acoustique. Parallèlement, il inclut généralement également certaines techniques de traitement du signal pour minimiser l’impact du bruit environnemental, des canaux, des haut-parleurs et d’autres facteurs sur les fonctionnalités.
- Modèle acoustique : les systèmes typiques sont principalement modélisés sur la base du modèle de Markov caché du premier ordre.
- Dictionnaire de prononciation : Le dictionnaire de prononciation contient l'ensemble du vocabulaire que le système peut gérer ainsi que sa prononciation. Le dictionnaire de prononciation fournit en fait une correspondance entre les unités de modélisation de modèles acoustiques et les unités de modélisation de modèles linguistiques.
- Modèle de langage : un modèle de langage modélise le langage ciblé par le système. Théoriquement, divers modèles de langage, y compris les langages réguliers et les grammaires sans contexte, peuvent être utilisés comme modèles de langage, mais actuellement, divers systèmes utilisent généralement des grammaires statistiques N-grammes et leurs variantes.
- Décodeur : Le décodeur est l’un des composants essentiels du système de reconnaissance vocale. Sa tâche est de trouver la chaîne de mots qui peut produire le signal avec la probabilité la plus élevée en fonction de l'acoustique, du modèle linguistique et du dictionnaire.