HyperAIHyperAI
il y a 17 jours

MatchboxNet : Architecture de réseau de neurones convolutionnel 1D séparable temps-canalaire pour la reconnaissance de commandes vocales

Somshubra Majumdar, Boris Ginsburg
MatchboxNet : Architecture de réseau de neurones convolutionnel 1D séparable temps-canalaire pour la reconnaissance de commandes vocales
Résumé

Nous présentons MatchboxNet, un réseau neuronal end-to-end pour la reconnaissance de commandes vocales. MatchboxNet est un réseau résiduel profond composé de blocs de convolution 1D séparable dans le temps et le canal, suivis de couches de normalisation par lot, de fonctions d'activation ReLU et de couches de dropout. MatchboxNet atteint une précision de pointe sur le jeu de données Google Speech Commands tout en disposant d'un nombre de paramètres significativement réduit par rapport à des modèles similaires. La faible empreinte de MatchboxNet en fait un candidat particulièrement attrayant pour les dispositifs à ressources computationnelles limitées. Le modèle est hautement évolutif, permettant d’améliorer sa précision avec une augmentation modeste de la mémoire et des ressources de calcul. Enfin, nous montrons comment une augmentation de données intensive, utilisant un ensemble de bruit auxiliaire, améliore la robustesse du modèle en présence de bruit ambiant.