Bts-e : Détection des deepfakes audio à l’aide d’un encodeur respiration-parole-silence
Le phishing vocal (vishing) gagne en popularité en raison du développement des technologies de synthèse vocale. En particulier, l'utilisation de l’apprentissage profond pour générer des clips audio de contenu arbitraire simulants la voix de la victime rend difficile, non seulement pour les humains mais aussi pour les systèmes automatiques de vérification de locuteur (ASV), la distinction entre une voix authentique et une voix synthétique. Des systèmes de contre-mesure (CM) ont récemment été développés afin d’aider l’ASV à lutter contre les voix synthétiques. Dans ce travail, nous proposons BTS-E, un cadre d’évaluation de la corrélation entre les sons respiratoires, parlés (parole) et de silence présents dans un clip audio, puis utilisation de ces informations pour des tâches de détection de deepfake. Nous soutenons que les sons naturels humains, tels que le souffle, sont difficiles à reproduire fidèlement par les systèmes de synthèse vocale (TTS). Une évaluation à grande échelle a été menée en utilisant les ensembles d’évaluation ASVspoof 2019 et 2021 afin de valider notre hypothèse. Les résultats expérimentaux montrent que la caractéristique liée au son respiratoire est efficace pour détecter les voix de deepfake. En général, le système proposé améliore significativement la performance du classificateur, jusqu’à 46 %.