HyperAIHyperAI
il y a 2 mois

Deep Speech : Évolution de la reconnaissance vocale de bout en bout

Awni Hannun; Carl Case; Jared Casper; Bryan Catanzaro; Greg Diamos; Erich Elsen; Ryan Prenger; Sanjeev Satheesh; Shubho Sengupta; Adam Coates; Andrew Y. Ng
Deep Speech : Évolution de la reconnaissance vocale de bout en bout
Résumé

Nous présentons un système de reconnaissance vocale d'avant-garde développé à l'aide d'un apprentissage profond de bout en bout. Notre architecture est considérablement plus simple que celle des systèmes de parole traditionnels, qui reposent sur des pipelines de traitement méticuleusement conçus ; ces systèmes traditionnels ont également tendance à fonctionner mal dans des environnements bruyants. En revanche, notre système n'a pas besoin de composants conçus manuellement pour modéliser le bruit de fond, la réverbération ou les variations entre locuteurs, mais apprend directement une fonction résistante à ces effets. Nous n'avons pas besoin d'un dictionnaire phonétique, ni même du concept de « phonème ». Un élément clé de notre approche est un système d'entraînement RNN bien optimisé utilisant plusieurs GPU, ainsi qu'un ensemble de techniques novatrices de synthèse de données qui nous permettent d'obtenir efficacement une grande quantité de données variées pour l'entraînement. Notre système, appelé Deep Speech, surpass les résultats précédemment publiés sur le jeu de données largement étudié Switchboard Hub5'00, atteignant un taux d'erreur de 16,0 % sur l'ensemble des tests. Deep Speech gère également mieux les environnements bruyants difficiles que les systèmes commerciaux avancés et largement utilisés.

Deep Speech : Évolution de la reconnaissance vocale de bout en bout | Articles de recherche récents | HyperAI