HyperAIHyperAI
il y a 17 jours

Recherche efficace d'architecture neuronale pour la reconnaissance vocale end-to-end via des gradients straight-through

Huahuan Zheng, Keyu An, Zhijian Ou
Recherche efficace d'architecture neuronale pour la reconnaissance vocale end-to-end via des gradients straight-through
Résumé

La Recherche d'Architecture Neuropéritique (NAS), processus d'automatisation de l'ingénierie d'architecture, représente une étape prometteuse dans l'avancement de la reconnaissance automatique de la parole (ASR) en boucle complète, en remplaçant les réseaux conçus par des experts par des architectures apprises spécifiquement pour une tâche donnée. Contrairement aux méthodes de NAS initiales très exigeantes en ressources computationnelles, les approches récentes de NAS basées sur les gradients, telles que DARTS (Differentiable ARchiTecture Search), SNAS (Stochastic NAS) et ProxylessNAS, améliorent considérablement l'efficacité de la NAS. Dans cet article, nous apportons deux contributions. Premièrement, nous développons rigoureusement une méthode de NAS efficace fondée sur les gradients Straight-Through (ST), appelée ST-NAS. En substance, ST-NAS utilise la fonction de perte de SNAS, mais emploie la méthode ST pour propager les gradients à travers des variables discrètes afin d'optimiser cette perte — une caractéristique non explicitée dans ProxylessNAS. L'utilisation des gradients ST pour soutenir l'échantillonnage de sous-graphes constitue un élément central permettant d'atteindre une NAS efficace au-delà de DARTS et de SNAS. Deuxièmement, nous appliquons avec succès ST-NAS à la reconnaissance automatique de la parole en boucle complète. Des expériences menées sur les jeux de données largement utilisés, WSJ sur 80 heures et Switchboard sur 300 heures, montrent que les architectures induites par ST-NAS surpassent significativement, sur les deux jeux de données, l'architecture conçue par des humains. Les atouts de ST-NAS, tels que sa transférabilité d'architecture et son faible coût computationnel en mémoire et en temps, sont également rapportés.

Recherche efficace d'architecture neuronale pour la reconnaissance vocale end-to-end via des gradients straight-through | Articles de recherche récents | HyperAI