Détection automatique de la falsification en vérification vocale et des deepfakes à l’aide de wav2vec 2.0 et d’augmentation de données

La performance des systèmes de contre-mesures contre les attaques par spoofing dépend fondamentalement de l’utilisation de données d’entraînement suffisamment représentatives. Étant donné que celles-ci sont généralement limitées, les solutions actuelles manquent souvent de généralisation face aux attaques rencontrées dans des environnements réels. Des stratégies visant à améliorer la fiabilité face à des attaques imprévisibles et non contrôlées sont donc nécessaires. Dans ce travail, nous présentons nos efforts visant à exploiter l’apprentissage auto-supervisé sous la forme d’un module front-end wav2vec 2.0, ajusté par fine-tuning. Malgré l’apprentissage initial des représentations de base à l’aide uniquement de données authentiques et sans données falsifiées, nous obtenons les taux d’erreur équivalents les plus bas jamais rapportés dans la littérature pour les bases de données ASVspoof 2021 Logical Access et Deepfake. Lorsqu’elles sont combinées à une augmentation de données, ces performances représentent une amélioration d’environ 90 % en termes relatifs par rapport à notre système de référence.