XLSR-Mamba : un modèle à espace d'état bidirectionnel à colonnes doubles pour la détection des attaques de falsification

Les modèles Transformers et leurs variantes ont remporté un grand succès dans le traitement du langage parlé. Toutefois, leur mécanisme d’attention auto-associative à plusieurs têtes s’avère coûteux en termes de calcul. Afin de pallier ce défaut, un nouveau modèle d’espace d’état sélectif, appelé Mamba, a été proposé comme alternative. Inspiré de ses performances remarquables en reconnaissance automatique de la parole, nous appliquons Mamba à la détection d’attaques de falsification (spoofing). Mamba s’avère particulièrement adapté à cette tâche, car il est capable de capturer les artefacts présents dans les signaux vocaux falsifiés grâce à sa capacité à traiter des séquences longues. Toutefois, ses performances peuvent se dégrader lorsqu’il est entraîné avec un faible volume de données étiquetées. Pour atténuer ce problème, nous proposons de combiner une nouvelle architecture de Mamba fondée sur une structure à deux colonnes avec un apprentissage auto-supervisé, en s’appuyant sur le modèle pré-entraîné wav2vec 2.0. Les expérimentations montrent que notre approche atteint des résultats compétitifs, tout en offrant une inférence plus rapide sur les jeux de données ASVspoof 2021 LA et DF. Sur le jeu de données plus exigeant In-the-Wild, elle se distingue comme le meilleur candidat actuel pour la détection des attaques de falsification. Le code source a été rendu publiquement disponible à l’adresse suivante : https://github.com/swagshaw/XLSR-Mamba.