HyperAI

Modélisation Acoustique

Modèle acoustiqueUtilisé pour calculer la probabilité que le modèle génère une forme d'onde vocale. Il s’agit de l’un des éléments les plus importants du système de reconnaissance vocale et représente la majeure partie de la charge de calcul, déterminant les performances du système de reconnaissance vocale.

Historique du développement

  • Méthodes traditionnelles : basées sur des modèles acoustiques de Markov cachés, tels que la méthode de modélisation GMM-HMM - GMM est utilisé pour modéliser la distribution des caractéristiques acoustiques de la parole, et HMM est utilisé pour modéliser la nature temporelle des signaux de parole ;
  • Réseau neuronal profond : utilisé pour le modèle acoustique de la parole. En 2009, Hinton et ses étudiants ont utilisé un réseau neuronal profond entièrement connecté à feedforward pour la reconnaissance vocale, qui avait de meilleures performances que le modèle acoustique basé sur DNN-HMM sur l'ensemble de données TIMIT.
  • Utilisation d’informations contextuelles de longueur variable : En 2015, des modèles acoustiques utilisant des informations vocales de longueur variable ont été mis en service. La longueur optimale des informations vocales est affectée par les phonèmes et la vitesse de parole. Les fenêtres de contexte à longueur fixe ne sont pas le meilleur choix dans les systèmes hybrides DNN-HMM. Les nouveaux modèles de ces dernières années sont principalement basés sur les réseaux de neurones récurrents (RNN) et les réseaux de neurones convolutifs (CNN).

Références

【1】Modèle acoustique de la technologie de reconnaissance vocale – 52AI Intelligence artificielle – Blogue CSDN

【2】Yu Dong, directeur adjoint du Tencent AI Lab : Progrès dans les modèles acoustiques basés sur l'apprentissage profond au cours des deux dernières années | Cœur de la machine