il y a 2 mois

Modélisation temporelle-canaux dans l'auto-attention multi-têtes pour la détection de la parole synthétique

Truong, Duc-Tuan ; Tao, Ruijie ; Nguyen, Tuan ; Luong, Hieu-Thi ; Lee, Kong Aik ; Chng, Eng Siong

Résumé

Les détecteurs de parole synthétique récents utilisant le modèle Transformer présentent des performances supérieures à celles de leurs homologues basés sur les réseaux neuronaux convolutifs. Cette amélioration pourrait être attribuée à la puissante capacité de modélisation de l'attention multi-têtes (MHSA) dans le modèle Transformer, qui apprend la relation temporelle entre chaque jeton d'entrée. Cependant, les artefacts de la parole synthétique peuvent être localisés dans des régions spécifiques des canaux fréquentiels et des segments temporels, tandis que l' MHSA néglige cette dépendance temporelle-canaux de la séquence d'entrée. Dans ce travail, nous proposons un module de Modélisation Temporelle-Canaux (TCM) pour renforcer la capacité de l' MHSA à capturer ces dépendances temporelles-canaux. Les résultats expérimentaux sur ASVspoof 2021 montrent que, avec seulement 0,03 millions de paramètres supplémentaires, le module TCM peut surpasser le système d'état de l'art avec une amélioration de 9,25 % en termes d'EER (Equal Error Rate). Une étude plus approfondie par élimination progressive révèle que l'utilisation simultanée des informations temporelles et canaliques offre les meilleures performances pour la détection de la parole synthétique.