HyperAIHyperAI
il y a 2 mois

SpeechNAS : Vers une meilleure compromis entre latence et précision pour la vérification de grande échelle des locuteurs

Wentao Zhu; Tianlong Kong; Shun Lu; Jixiang Li; Dawei Zhang; Feng Deng; Xiaorui Wang; Sen Yang; Ji Liu
SpeechNAS : Vers une meilleure compromis entre latence et précision pour la vérification de grande échelle des locuteurs
Résumé

Récemment, l'approche x-vector a connu un grand succès et est devenue populaire dans le domaine de la vérification vocale, utilisant un réseau neuronal à retard temporel (TDNN) et une mise en commun statistique pour extraire des plongements caractéristiques du locuteur à partir d'énoncés de longueur variable. L'amélioration de l'x-vector est une zone de recherche active, et de nombreux réseaux neuronaux sophistiqués ont été conçus sur la base de l'x-vector, par exemple, le TDNN étendu (E-TDNN), le TDNN factorisé (F-TDNN) et le TDNN densément connecté (D-TDNN). Dans cette étude, nous tentons d'identifier les architectures optimales au sein d'un espace de recherche basé sur le TDNN en utilisant la recherche d'architecture neuronale (NAS), nommée SpeechNAS. En tirant parti des récentes avancées en reconnaissance vocale, telles que la mise en commun statistique d'ordre supérieur, le mécanisme multi-branche, le D-TDNN et la perte softmax avec marge angulaire additive (AAM) associée à une énergie hypersphérique minimale (MHE), SpeechNAS découvre automatiquement cinq architectures de réseau, allant de SpeechNAS-1 à SpeechNAS-5, avec différents nombres de paramètres et GFLOPs sur l'ensemble de données VoxCeleb1 pour la reconnaissance vocale indépendante du texte à grande échelle. Notre meilleur réseau neuronal dérivé atteint un taux d'erreur égal (EER) de 1,02 % sur l'ensemble de tests standard de VoxCeleb1, surpassant largement les approches précédentes basées sur le TDNN qui étaient considérées comme l'état de l'art. Le code source et les poids entraînés sont disponibles à l'adresse suivante : https://github.com/wentaozhu/speechnas.git