HyperAIHyperAI

Command Palette

Search for a command to run...

Zeitliche-Kanal-Modellierung im Mehrkopf-Selbst-Aufmerksamkeitsmechanismus für die Erkennung von synthetischer Sprache

Duc-Tuan Truong Ruijie Tao Tuan Nguyen Hieu-Thi Luong Kong Aik Lee Eng Siong Chng

Zusammenfassung

Kürzlich entwickelte synthetische Spracherkennungsdetektoren, die das Transformer-Modell nutzen, erzielen eine überlegene Leistung im Vergleich zu ihren Gegenstücken, die auf Faltungsneuronalen Netzen (CNN) basieren. Diese Verbesserung könnte auf die leistungsstarke Modellierungsfähigkeit der Multi-Head-Self-Attention (MHSA) im Transformer-Modell zurückzuführen sein, welche die zeitliche Beziehung jedes Eingabetokens lernt. Allerdings können Artefakte von synthetischer Sprache in bestimmten Bereichen sowohl der Frequenzkanäle als auch der Zeitsegmente lokalisiert werden, während MHSA diese zeitliche-Kanal-Abhängigkeit der Eingabe-Sequenz vernachlässigt. In dieser Arbeit schlagen wir ein Temporal-Channel-Modeling (TCM)-Modul vor, um die Fähigkeit der MHSA zur Erfassung von zeitlichen-Kanal-Abhängigkeiten zu verbessern. Experimentelle Ergebnisse am ASVspoof 2021 zeigen, dass das TCM-Modul mit nur 0,03 Millionen zusätzlichen Parametern den Stand der Technik um 9,25 % in Bezug auf den Equal Error Rate (EER) übertreffen kann. Eine weitere Abstraktionsstudie (Ablation Study) ergibt, dass die Nutzung sowohl zeitlicher als auch kanalbasierter Informationen den größten Nutzen für die Erkennung von synthetischer Sprache bietet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp