VoxCeleb2 : Reconnaissance profonde des locuteurs

L'objectif de cet article est la reconnaissance vocale dans des conditions bruyantes et non contrôlées. Nous apportons deux contributions majeures. Premièrement, nous présentons un ensemble de données audiovisuel à très grande échelle pour la reconnaissance vocale, collecté à partir de médias open source. En utilisant une chaîne de traitement entièrement automatisée, nous avons constitué le dataset VoxCeleb2 qui contient plus d'un million d'énoncés provenant de plus de 6 000 locuteurs. Cet ensemble de données est plusieurs fois plus grand que tout autre dataset public disponible pour la reconnaissance vocale.Deuxièmement, nous développons et comparons des modèles et des stratégies d'entraînement basés sur les Réseaux Neuronaux Convolutifs (CNN) capables de reconnaître efficacement les identités à partir de la voix dans diverses conditions. Les modèles entraînés sur le dataset VoxCeleb2 surpassent les performances des travaux précédents sur un jeu de données de référence avec une marge significative.