HyperAIHyperAI
il y a 17 jours

Attention Back-end pour la vérification automatique de locuteur avec plusieurs énoncés d'inscription

Chang Zeng, Xin Wang, Erica Cooper, Xiaoxiao Miao, Junichi Yamagishi
Attention Back-end pour la vérification automatique de locuteur avec plusieurs énoncés d'inscription
Résumé

L'analyse discriminante linéaire probabiliste (PLDA) ou la similarité cosinus ont été largement utilisées dans les systèmes traditionnels de vérification de locuteur en tant que techniques de post-traitement pour mesurer les similarités par paires. Afin d'exploiter de manière plus efficace plusieurs énoncés d'inscription (enrollment), nous proposons un nouveau modèle de post-traitement basé sur l'attention, pouvant être appliqué aussi bien à la vérification de locuteur indépendante du texte (TI) qu'à celle dépendante du texte (TD), et qui utilise des architectures reposant sur l'attention auto-attention à point scalaire (scaled-dot self-attention) et des réseaux d'attention auto-attention à propagation feed-forward afin d'apprendre les relations intra-énoncés au sein des énoncés d'inscription. Pour valider le modèle de post-traitement proposé, nous menons une série d'expériences sur les jeux de données CNCeleb et VoxCeleb en l'associant à plusieurs encodeurs de locuteurs d'état de l'art, notamment TDNN et ResNet. Les résultats expérimentaux obtenus avec plusieurs énoncés d'inscription sur CNCeleb montrent que le modèle proposé atteint un taux d'erreur d'authentification (EER) et un score minDCF inférieurs à ceux des modèles PLDA et similarité cosinus pour chaque encodeur de locuteur. Une expérience sur VoxCeleb indique également que notre modèle peut être efficacement utilisé même dans le cas d'un seul énoncé d'inscription.