HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance vocale pleinement convolutive

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

Résumé

Les systèmes de reconnaissance vocale les plus avancés actuellement s'appuient sur des réseaux neuronaux récurrents pour la modélisation acoustique et/ou linguistique, et utilisent des pipelines d'extraction de caractéristiques pour extraire des banques de filtres mel ou des coefficients célestres. Dans cet article, nous présentons une approche alternative basée uniquement sur des réseaux neuronaux convolutifs, en tirant parti des récents progrès dans la modélisation acoustique à partir du signal sonore brut et dans la modélisation linguistique. Cette approche entièrement convolutive est formée de bout en bout pour prédire des caractères à partir du signal sonore brut, éliminant ainsi complètement l'étape d'extraction de caractéristiques. Un modèle linguistique externe convolutif est utilisé pour déchiffrer les mots. Sur le corpus du Wall Street Journal, notre modèle atteint le niveau actuel de l'état de l'art. Sur Librispeech, nous rapportons des performances d'état de l'art parmi les modèles formés de bout en bout, y compris Deep Speech 2 qui a été entraîné avec 12 fois plus de données acoustiques et considérablement plus de données linguistiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Reconnaissance vocale pleinement convolutive | Articles | HyperAI