HyperAIHyperAI
il y a 16 jours

Fusion d'information multimodale pour la détection de la falsification vocale

{Lei Shi, Bin Wu, Huawei Song, Hao Zhou, Junxiao Xue}
Résumé

Ces dernières années, les systèmes de vérification vocale ont été largement déployés dans de nombreux scénarios industriels. Malheureusement, ils restent très vulnérables à divers types d’attaques par spoofing, tels que les attaques basées sur la synthèse vocale ou les attaques par répétition (replay). Bien que de nombreuses méthodes aient été proposées pour contrer ces menaces, les approches existantes se concentrent principalement sur les caractéristiques acoustiques du signal vocal. Récemment, des recherches ont révélé que le discours contient une quantité importante d’informations visuelles liées au visage. En effet, il est possible de déduire le sexe, l’âge, la forme de la bouche et d’autres caractéristiques du locuteur à partir de la voix. Ces informations complémentaires peuvent jouer un rôle clé dans la détection des attaques par spoofing. Inspirés par ce phénomène, nous proposons un cadre généralisé appelé GACMNet. Afin de faire face à divers scénarios d’attaque, nous avons instancié deux modèles distincts. Notre cadre se divise principalement en quatre phases : prétraitement des données, extraction des caractéristiques, fusion des caractéristiques et classification. Plus précisément, il repose sur deux branches : d’une part, nous extrayons les caractéristiques visuelles à partir du signal vocal à l’aide d’un réseau neuronal convolutif (CNN) ; d’autre part, nous utilisons un réseau à connexion dense pour extraire les caractéristiques acoustiques. En outre, nous avons conçu un mécanisme de fusion d’information basé sur un mécanisme d’attention globale, permettant de pondérer l’importance relative de chaque composante des caractéristiques. Nos expérimentations montrent que notre approche est efficace dans deux scénarios majeurs. Par rapport aux méthodes existantes, notre modèle améliore respectivement le taux de coût décisionnel tandem (t-DCF) et le taux d’erreur équivalent (EER) de 9 % et 11 % dans le scénario d’accès logique, et améliore le taux EER de 10 % dans le scénario d’accès physique.

Fusion d'information multimodale pour la détection de la falsification vocale | Articles de recherche récents | HyperAI