Zeitliche-Kanal-Modellierung im Mehrkopf-Selbst-Aufmerksamkeitsmechanismus für die Erkennung von synthetischer Sprache

Kürzlich entwickelte synthetische Spracherkennungsdetektoren, die das Transformer-Modell nutzen, erzielen eine überlegene Leistung im Vergleich zu ihren Gegenstücken, die auf Faltungsneuronalen Netzen (CNN) basieren. Diese Verbesserung könnte auf die leistungsstarke Modellierungsfähigkeit der Multi-Head-Self-Attention (MHSA) im Transformer-Modell zurückzuführen sein, welche die zeitliche Beziehung jedes Eingabetokens lernt. Allerdings können Artefakte von synthetischer Sprache in bestimmten Bereichen sowohl der Frequenzkanäle als auch der Zeitsegmente lokalisiert werden, während MHSA diese zeitliche-Kanal-Abhängigkeit der Eingabe-Sequenz vernachlässigt. In dieser Arbeit schlagen wir ein Temporal-Channel-Modeling (TCM)-Modul vor, um die Fähigkeit der MHSA zur Erfassung von zeitlichen-Kanal-Abhängigkeiten zu verbessern. Experimentelle Ergebnisse am ASVspoof 2021 zeigen, dass das TCM-Modul mit nur 0,03 Millionen zusätzlichen Parametern den Stand der Technik um 9,25 % in Bezug auf den Equal Error Rate (EER) übertreffen kann. Eine weitere Abstraktionsstudie (Ablation Study) ergibt, dass die Nutzung sowohl zeitlicher als auch kanalbasierter Informationen den größten Nutzen für die Erkennung von synthetischer Sprache bietet.