HyperAIHyperAI
il y a 12 jours

Détection des deepfakes audio à l’aide de XLS-R auto-supervisé et d’un classificateur SLS

{Tao Hu, Shuangbing Wen, Qishan Zhang}
Détection des deepfakes audio à l’aide de XLS-R auto-supervisé et d’un classificateur SLS
Résumé

Les technologies d’intelligence artificielle générative, notamment la synthèse vocale (text-to-speech, TTS) et la conversion de voix (voice conversion, VC), deviennent de plus en plus indiscernables des échantillons authentiques, posant ainsi des défis aux individus dans la distinction entre contenus réels et synthétiques. Cette indiscernabilité affaiblit la confiance dans les médias, tandis que le clonage arbitraire de signaux vocaux personnels soulève des enjeux majeurs en matière de vie privée et de sécurité. Dans le domaine de la détection des voix deepfake, la majorité des modèles atteignant une haute précision de détection reposent actuellement sur des modèles pré-entraînés auto-supervisés. Toutefois, avec le progrès constant des algorithmes de génération de voix deepfake, maintenir une haute précision de discrimination face à de nouveaux algorithmes devient de plus en plus difficile.Afin d’améliorer la sensibilité des caractéristiques des voix deepfake, nous proposons un modèle de détection des voix deepfake intégrant un module SLS (Sensitive Layer Selection). Plus précisément, en exploitant le modèle pré-entraîné XLS-R, notre modèle extrait des caractéristiques audio diversifiées à partir de différentes couches, chacune fournissant des informations discriminantes distinctes. Grâce au classificateur SLS, notre modèle capte des informations contextuelles sensibles à différents niveaux de couches des caractéristiques audio, et exploite efficacement ces informations pour la détection des voix falsifiées. Les résultats expérimentaux montrent que notre méthode atteint des performances de pointe (SOTA) sur les deux jeux de données ASVspoof 2021 DF et In-the-Wild, avec un taux d’erreur équivalent (EER) de 1,92 % sur ASVspoof 2021 DF et de 7,46 % sur In-the-Wild. Le code et les données sont disponibles à l’adresse suivante : https://github.com/QiShanZhang/SLSforADD.

Détection des deepfakes audio à l’aide de XLS-R auto-supervisé et d’un classificateur SLS | Articles de recherche récents | HyperAI