HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation temporelle-canaux dans l'auto-attention multi-têtes pour la détection de la parole synthétique

Duc-Tuan Truong Ruijie Tao Tuan Nguyen Hieu-Thi Luong Kong Aik Lee Eng Siong Chng

Résumé

Les détecteurs de parole synthétique récents utilisant le modèle Transformer présentent des performances supérieures à celles de leurs homologues basés sur les réseaux neuronaux convolutifs. Cette amélioration pourrait être attribuée à la puissante capacité de modélisation de l'attention multi-têtes (MHSA) dans le modèle Transformer, qui apprend la relation temporelle entre chaque jeton d'entrée. Cependant, les artefacts de la parole synthétique peuvent être localisés dans des régions spécifiques des canaux fréquentiels et des segments temporels, tandis que l' MHSA néglige cette dépendance temporelle-canaux de la séquence d'entrée. Dans ce travail, nous proposons un module de Modélisation Temporelle-Canaux (TCM) pour renforcer la capacité de l' MHSA à capturer ces dépendances temporelles-canaux. Les résultats expérimentaux sur ASVspoof 2021 montrent que, avec seulement 0,03 millions de paramètres supplémentaires, le module TCM peut surpasser le système d'état de l'art avec une amélioration de 9,25 % en termes d'EER (Equal Error Rate). Une étude plus approfondie par élimination progressive révèle que l'utilisation simultanée des informations temporelles et canaliques offre les meilleures performances pour la détection de la parole synthétique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modélisation temporelle-canaux dans l'auto-attention multi-têtes pour la détection de la parole synthétique | Articles | HyperAI