HyperAIHyperAI
vor 15 Tagen

XLSR-Mamba: Ein zweispaltiges bidirektionales Zustandsraummodell zur Detektion von Spoofing-Angriffen

Yang Xiao, Rohan Kumar Das
XLSR-Mamba: Ein zweispaltiges bidirektionales Zustandsraummodell zur Detektion von Spoofing-Angriffen
Abstract

Transformers und ihre Varianten haben in der Sprachverarbeitung erheblichen Erfolg erzielt. Ihr Multi-Head-Self-Attention-Mechanismus ist jedoch rechenintensiv. Um dies zu umgehen, wurde kürzlich ein neuartiges selektives Zustandsraummodell, Mamba, vorgeschlagen, das als Alternative dient. Aufgrund seines Erfolgs in der automatischen Spracherkennung wenden wir Mamba nun für die Erkennung von Spoofing-Angriffen an. Mamba eignet sich besonders gut für diese Aufgabe, da es durch die Verarbeitung langer Sequenzen Artefakte in manipulierten Sprachsignalen effektiv erfassen kann. Allerdings kann die Leistung von Mamba leiden, wenn es mit begrenzten gelabelten Daten trainiert wird. Um dies zu mildern, schlagen wir vor, eine neuartige Mamba-Architektur basierend auf einem Dual-Column-Design mit selbstüberwachtem Lernen zu kombinieren, wobei das vortrainierte wav2vec 2.0-Modell genutzt wird. Experimente zeigen, dass unser vorgeschlagener Ansatz auf den ASVspoof 2021 LA- und DF-Datensätzen konkurrenzfähige Ergebnisse und schnellere Inferenzzeiten erzielt und auf dem anspruchsvolleren In-the-Wild-Datensatz die stärkste Lösung für die Erkennung von Spoofing-Angriffen darstellt. Der Quellcode ist öffentlich unter https://github.com/swagshaw/XLSR-Mamba verfügbar.

XLSR-Mamba: Ein zweispaltiges bidirektionales Zustandsraummodell zur Detektion von Spoofing-Angriffen | Neueste Forschungsarbeiten | HyperAI