En faveur de l'apprentissage de métriques pour la reconnaissance vocale

L'objectif de cet article est la reconnaissance vocale « à ensemble ouvert » de locuteurs inconnus, dans laquelle les embeddings idéaux devraient pouvoir condenser l'information en une représentation compacte au niveau de l'énoncé, caractérisée par une faible distance intra-parleur et une grande distance inter-parleur. Une croyance répandue en reconnaissance vocale est que les réseaux entraînés avec des objectifs de classification surpassent les méthodes d'apprentissage de métriques. Dans cet article, nous présentons une évaluation approfondie des fonctions de perte les plus courantes pour la reconnaissance vocale sur le jeu de données VoxCeleb. Nous démontrons que la perte triplet classique affiche des performances compétitives par rapport aux fonctions de perte basées sur la classification, et que les modèles entraînés selon notre nouvel objectif d'apprentissage de métriques surpassent les méthodes de pointe actuelles.