HyperAIHyperAI

Command Palette

Search for a command to run...

AutoSpeech : Recherche d'architecture neuronique pour la reconnaissance vocale

Shaojin Ding Tianlong Chen Xinyu Gong Weiwei Zha Zhangyang Wang

Résumé

Les systèmes de reconnaissance vocale basés sur les réseaux de neurones à convolution (CNN) sont souvent construits à l’aide de modèles pré-entraînés tels que VGG-Net ou ResNet. Toutefois, ces architectures initiales ont été conçues principalement pour la classification d’images, ce qui peut les rendre mal adaptées naturellement à la reconnaissance vocale. En raison de la complexité prohibitive liée à l’exploration manuelle de l’espace de conception, nous proposons la première approche de recherche d’architecture neuronale dédiée aux tâches de reconnaissance vocale, nommée AutoSpeech. Notre algorithme identifie d’abord la combinaison optimale d’opérations au sein d’une cellule neuronale, puis construit un modèle CNN en empilant cette cellule de manière répétée. Le modèle final de reconnaissance vocale est obtenu en entraînant ce modèle CNN dérivé selon une procédure standard. Pour évaluer notre approche, nous menons des expériences sur les tâches de reconnaissance et de vérification vocales à l’aide du jeu de données VoxCeleb1. Les résultats montrent que les architectures CNN dérivées par notre méthode surpassent significativement les systèmes actuels basés sur les architectures VGG-M, ResNet-18 et ResNet-34, tout en présentant une complexité de modèle réduite.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp