HyperAIHyperAI
il y a 17 jours

Vérification de la falsification audio par apprentissage profond par transfert à l’aide de réseaux de neurones convolutifs

Rahul T P, P R Aravind, Ranjith C, Usamath Nechiyil, Nandakumar Paramparambath
Vérification de la falsification audio par apprentissage profond par transfert à l’aide de réseaux de neurones convolutifs
Résumé

Les systèmes de vérification automatique de locuteur gagnent en popularité ces derniers temps ; les attaques par imitations (spoofing) constituent une préoccupation majeure, car elles rendent ces systèmes vulnérables. Certaines attaques par imitations, telles que les attaques par relecture (replay attacks), sont faciles à mettre en œuvre mais extrêmement difficiles à détecter, ce qui souligne la nécessité de contre-mesures adaptées. Dans cet article, nous proposons un classificateur vocal fondé sur un réseau de neurones convolutif profond afin de détecter les attaques par imitations. Notre approche utilise une représentation temporelle et fréquentielle acoustique des densités spectrales de puissance sur l’échelle de fréquence de Mel (Mel-spectrogramme), en s’appuyant sur l’apprentissage résiduel profond (adaptation de l’architecture ResNet-34). Grâce à un système basé sur un seul modèle, nous avons atteint un taux d’erreur égal (EER) de 0,9056 % sur le jeu de données de développement et de 5,32 % sur le jeu de données d’évaluation dans le scénario d’accès logique, ainsi qu’un EER de 5,87 % sur le jeu de données de développement et de 5,74 % sur le jeu de données d’évaluation dans le scénario d’accès physique, selon le benchmark ASVspoof 2019.

Vérification de la falsification audio par apprentissage profond par transfert à l’aide de réseaux de neurones convolutifs | Articles de recherche récents | HyperAI