il y a 11 jours

AutoSpeech : Recherche d'architecture neuronique pour la reconnaissance vocale

Shaojin Ding, Tianlong Chen, Xinyu Gong, Weiwei Zha, Zhangyang Wang

Résumé

Les systèmes de reconnaissance vocale basés sur les réseaux de neurones à convolution (CNN) sont souvent construits à l’aide de modèles pré-entraînés tels que VGG-Net ou ResNet. Toutefois, ces architectures initiales ont été conçues principalement pour la classification d’images, ce qui peut les rendre mal adaptées naturellement à la reconnaissance vocale. En raison de la complexité prohibitive liée à l’exploration manuelle de l’espace de conception, nous proposons la première approche de recherche d’architecture neuronale dédiée aux tâches de reconnaissance vocale, nommée AutoSpeech. Notre algorithme identifie d’abord la combinaison optimale d’opérations au sein d’une cellule neuronale, puis construit un modèle CNN en empilant cette cellule de manière répétée. Le modèle final de reconnaissance vocale est obtenu en entraînant ce modèle CNN dérivé selon une procédure standard. Pour évaluer notre approche, nous menons des expériences sur les tâches de reconnaissance et de vérification vocales à l’aide du jeu de données VoxCeleb1. Les résultats montrent que les architectures CNN dérivées par notre méthode surpassent significativement les systèmes actuels basés sur les architectures VGG-M, ResNet-18 et ResNet-34, tout en présentant une complexité de modèle réduite.