il y a 11 jours

Réseaux de graphes d'attention spectro-temporels bout-en-bout pour la vérification de locuteur contre les spoofing et la détection des deepfakes vocaux

Hemlata Tak, Jee-weon Jung, Jose Patino, Madhu Kamble, Massimiliano Todisco, Nicholas Evans

Résumé

Les artefacts permettant de distinguer une parole authentique d’une parole falsifiée ou générée par deepfake sont connus pour se trouver dans des sous-bandes spécifiques et des segments temporels précis. Bien que diverses approches puissent être utilisées pour capturer et modéliser ces artefacts, aucune ne se révèle efficace dans l’ensemble d’un large éventail d’attaques de falsification. Une détection fiable dépend donc souvent de la fusion de plusieurs systèmes de détection, chacun étant adapté à détecter des formes d’attaque différentes. Dans cet article, nous montrons qu’une meilleure performance peut être obtenue lorsque la fusion est effectuée directement au sein du modèle, et que la représentation est apprise automatiquement à partir d’entrées brutes sous forme d’ondes sonores. La contribution principale réside dans un réseau de graphes à attention spectro-temporel (GAT), qui apprend les relations entre les indices présents dans différentes sous-bandes et intervalles temporels. En exploitant une fusion de graphes au niveau du modèle entre des sous-graphes spectraux (S) et temporels (T), ainsi qu’une stratégie de pooling de graphes pour améliorer la discrimination, le modèle proposé, RawGAT-ST, atteint un taux d’erreur égal de 1,06 % sur la base de données ASVspoof 2019 pour l’accès logique. Il s’agit de l’un des meilleurs résultats rapportés à ce jour, et il est reproductible grâce à une implémentation open source.