L'outil De Reconnaissance Vocale De Google a D'abord Profité À Ses Propres Employés

Récemment, l'équipe Google Brain a lancé le projet Parrotron pour aider les personnes et les appareils à comprendre plus précisément les personnes souffrant de troubles de la parole. Parrotron commence par l'analyse audio et résout le problème du point de vue des signaux vocaux. Il utilise un seul entraînement de réseau neuronal profond de bout en bout pour convertir directement la parole des personnes souffrant de troubles de la parole en parole synthétique fluide, les aidant ainsi à résoudre les problèmes de communication.
Dimitri Kanevsky est né en Russie dans les années 1950. Il a grandi pendant la guerre froide sino-soviétique, mais il a néanmoins terminé ses études et obtenu un doctorat en mathématiques.
Son parcours d'études et de travail a commencé en Russie, puis il a déménagé en Israël et en Allemagne. Il a finalement choisi de rester aux États-Unis et est devenu chercheur scientifique chez Google, se concentrant sur le domaine des algorithmes de reconnaissance vocale.
Cela semble être le chemin de vie d’une élite universitaire : recevoir une bonne éducation, obtenir une carte verte américaine, un emploi prestigieux, 152 brevets scientifiques et technologiques américains, et enfin atteindre le sommet de la vie dans la Silicon Valley.

L’histoire est loin d’être simple. Dimitri Kanevsky n’est pas une personne ordinaire. La plupart des gens ont du mal à imaginer qu’il soit également membre de la communauté des malentendants.
Dimitri Kanevsky est devenu sourd à cause des médicaments à l'âge d'un an, mais sa famille a quand même choisi une éducation normale pour lui. Il a commencé à apprendre la lecture labiale et la prononciation depuis son enfance et a fréquenté des écoles ordinaires. Et à l’adolescence, il a commencé à apprendre l’anglais avec l’aide de la prononciation russe.
Cependant, lors de son apprentissage de l'anglais, il a rencontré de gros obstacles dans la communication linguistique en raison de troubles auditifs et de différences de prononciation russe. Les phrases qu’il prononçait étaient plutôt vagues et souvent incompréhensibles pour l’autre partie. Il arrive même que les soins verbaux prodigués à sa famille ne soient pas toujours dispensés.
En termes simples, la plupart des gens ont du mal à comprendre directement l’anglais qu’il parle. Afin de résoudre son propre problème et d'aider davantage de personnes confrontées à des problèmes similaires, Dimitri Kanevsky a travaillé sur le thème de la reconnaissance vocale.

En médecine, cet état de parole confuse est appelé « dysarthrie ».Selon les statistiques,Près d’un million de personnes dans le monde souffrent de dysarthrie en raison d’une maladie physique.
La dysarthrie est un trouble de la parole causé par une neuropathie, une paralysie des muscles liés à la parole, une force de contraction affaiblie ou une incoordination des mouvements, communément appelé « troubles de l'élocution ».
Par exemple, un accident vasculaire cérébral, une paralysie cérébrale, la maladie de Parkinson, le syndrome de Down, la SLA (sclérose latérale amyotrophique) et de nombreuses autres maladies peuvent provoquer cette affection.

Chez Google également, une responsable marketing de marque nommée Aubrie Lee a été diagnostiquée avec une dystrophie musculaire rare (SLA), qui l'a obligée à passer beaucoup de temps dans un fauteuil roulant.
La perte continue de masse musculaire dans tout son corps lui causait également des difficultés de communication. Aubrie avait des difficultés d'audition et de prononciation, et était souvent mal comprise parce qu'elle ne pouvait pas sourire. De plus, elle a plusieurs accents et sa prononciation n’est pas claire, de sorte que l’autre partie ne peut souvent pas comprendre ce qu’elle veut dire lors des conversations.
Afin d'aider des collègues comme Dimitri Kanevsky et Aubrie Lee à résoudre leurs problèmes de langage, les difficultés d'articulation sont progressivement devenues un axe de recherche scientifique de l'équipe de recherche Google AI.
Prendre soin des personnes confrontées à des barrières linguistiques,Google lance un outil révolutionnaire
Il y a quelques années, lorsque Kanevsky a rejoint le groupe de recherche en IA de Google avec 30 ans d'expérience en reconnaissance vocale, il n'existait aucun outil pratique lui permettant de communiquer normalement avec les autres. Pour chaque réunion, Kanevsky doit réserver le service CART à l'avance et compter sur le sous-titreur pour entrer dans la réunion et taper le message vocal sur l'écran pour la conversation.
De même, Aubrie et ses collègues doivent également déployer beaucoup d’efforts pour réaliser une communication professionnelle que les gens ordinaires peuvent facilement réaliser. Mais ce dilemme devient peu à peu de l’histoire ancienne.
En février 2019, Google a lancé une application——Transcription en direct , apportant de l’espoir à la traduction de langues portables. Il s'agit d'une application qui transcrit instantanément la parole du monde réel, en utilisant le microphone intégré du téléphone pour convertir la parole en texte affiché en temps réel.
Puis, lors de la conférence Google I/O en mai, Projet Euphorie Il a été proposé que ce programme fournisse une solution de conversion de la parole en texte pour les personnes souffrant de troubles du langage causés par la SLA.

Ce mois-ci, Google a lancé un nouvel outil d’IA, Parrotron, capable de convertir directement des sons vagues en sons synthétiques standards.Cette technologie permet de surmonter encore plus les barrières linguistiques.
ParrotronRéseau neuronal profond de bout en boutCela part du point de vue de l’analyse audio. Lors de son utilisation, le testeur parle à un téléphone portable ou à un autre appareil et peut rapidement obtenir la prononciation standard après l'avoir répétée.
Dans le journal Parrotron : un modèle de conversion parole-parole de bout en bout et ses applications à la parole et à la séparation de la parole chez les malentendantsLors du test, Parrotrn a obtenu d'excellents résultats, avec de nouvelles avancées dans la précision de la reconnaissance et de la conversion vocales.
Adresse de l'article : https://arxiv.org/abs/1904.04169
Parrotron : traduire des mots vagues en paroles claires
Alors, comment cette technologie apparemment de haute technologie est-elle obtenue ?
Parrotron est un modèle séquence à séquence de bout en bout formé à l'aide d'un corpus parallèle de paires de paroles d'entrée/sortie pour mapper des paroles ambiguës à des phrases normales..

Le modèle de réseau se compose d'un encodeur et d'un décodeur avec un mécanisme d'attention, et enfin un vocodeur synthétise la forme d'onde du domaine temporel pour fournir un signal audio prédit.
L'encodeur convertit une séquence de trames acoustiques en une représentation de caractéristiques cachées, et le décodeur analyse la représentation pour prédire le spectrogramme.
L'opération se divise en deux étapes :Tout d'abord, nous construisons un modèle de conversion parole-parole pour un son standard fluide, puis nous ajustons les paramètres du modèle pour prendre en entrée une parole floue afin que le modèle puisse apprendre à distinguer et à reconnaître.

Afin de simuler les caractéristiques de la parole des patients atteints de SLA, ils ont utilisé le corpus de parole SLA du projet Euphonia et ont créé des phrases ambiguës en synthétisant le langage comme données d'entraînement.
Pour des individus spécifiques, le matériel enregistré est fourni par l'individu lui-même.
Après la formation,Les modèles de transformation peuvent éliminer les éléments perturbateurs du langage, tels que les effets du stress, du rythme et du bruit de fond ;En même temps, ignorez toute interférence non verbale, y compris les caractéristiques de l'orateur, les facteurs environnementaux, le style de parole et l'analyse et le traitement uniquement du contenu de la conversation.
Les deux premiers testeurs de Parrontron : pas de suspense
Pour vérifier l’effet réel de Parrotron, nous devons naturellement voir comment il fonctionne en pratique. Les meilleurs candidats au test sont sans aucun doute Dimitri Kanevsky et Aubrie Lee.
Dans l’expérience, Dimitri a enregistré un corpus de 15 heures et a laissé le modèle apprendre les subtilités de son discours. Grâce à l’apprentissage, le modèle est dans la traduction finale,Le taux d'erreur de traduction dans l'ensemble de test a été réduit de 89% au début à 32% .
En d’autres termes, grâce à la parole transcrite par Parrotron, l’interlocuteur ou le système ASR (reconnaissance vocale) peut facilement le comprendre.
Détails de l'utilisation de Parrotron par Kanevsky
Plus tard, Aubrie Lee a également effectué un test.Au cours des 1h30 de discours qu'elle a contribué à donner, le modèle a traduit le discours avec précision, lui permettant de s'exprimer clairement..
L'IA pour le bien social : la mission de l'intelligence artificielle
Des projets d’accessibilité créés par l’intelligence artificielle ont été fréquemment proposés ces dernières années. De nombreuses technologies de soins émergent pour aider les personnes handicapées à ouvrir de nouvelles portes.
Bien sûr, si la technologie est au service de ces personnes, elle est également portée par ces groupes particuliers. Par exemple, Dimitri Kanevsky, bien conscient des difficultés causées par la dysarthrie, s’est engagé dans la recherche sur la reconnaissance de la parole et la communication. Aubrie Lee utilise son attitude passionnée et vigoureuse envers la vie pour inspirer et encourager davantage d’investissements dans la recherche sur les personnes handicapées.

Bien que les données actuelles montrent que la situation n’est pas optimiste :Seule une personne handicapée sur dix dans le monde a accès aux outils technologiques. Mais heureusement, beaucoup de choses sont en train de changer, avec des progrès prometteurs.
En tant que géant de la technologie, Google continue de mettre en œuvre ses L'IA au service du bien socialLes plans et les outils tels que Parrotron sont probablement les étapes vers cette belle vision.
À l'heure où la technologie de l'intelligence artificielle envahit le monde, nous avons vu la transformation et la créativité de l'IA dans l'art, ainsi que sa promotion positive de la vie sociale, mais nous avons également vu certaines personnes utiliser l'IA pour changer de visage, épisser et créer des choses à partir de rien de manière malveillante.
J’espère que l’IA pourra revenir à son objectif scientifique initial, aider davantage de personnes dans le besoin et rendre le monde meilleur !
-- sur--