Tandem-Spoofing-robuste automatische Sprecherauthentifizierung basierend auf Zeitbereichsembeddings

Spoofing-robuste automatische Sprecherauthentifizierungssysteme (SASV) sind eine entscheidende Technologie zum Schutz vor manipulierten Sprachsignalen. In dieser Studie konzentrieren wir uns auf logische Zugriffsangriffe und stellen einen neuen Ansatz für SASV-Aufgaben vor. Eine neue Darstellung von echten und manipulierten Sprachsignalen wird verwendet, die auf der Wahrscheinlichkeitsverteilungsfunktion (WVF) der Wellformamplituden im Zeitbereich basiert. Diese Methodik erzeugt neuartige zeitliche Einbettungen, die aus der WVF ausgewählter Gruppen im Trainingsdatensatz abgeleitet sind. Der Beitrag dieses Artikels liegt insbesondere in der Betonung der Geschlechtertrennung und deren positiven Einflusses auf die Leistung. Wir schlagen ein Gegenmaßnahmesystem (CM) vor, das zeitliche Einbettungen verwendet, die aus der WVF von manipulierten und echten Sprachsignalen abgeleitet sind, sowie Geschlechtserkennung basierend auf männlichen und weiblichen zeitbasierten Einbettungen. Die Methode zeigt bemerkenswerte Fähigkeiten zur Geschlechtserkennung, mit Fehlzuordnungsrate von 0,94 % für Männer und 1,79 % für Frauen. Die männlichen und weiblichen CM-Systeme erreichen jeweils eine gleiche Fehlerquote (EER) von 8,67 % und 10,12 %. Durch die Integration dieses Ansatzes in traditionelle Sprecherauthentifizierungssysteme demonstrieren wir verbesserte Generalisierungsfähigkeit und Tandem-Detektionskostenfunktionsevaluation unter Verwendung der ASVspoof2019-Challenge-Datenbank. Zudem untersuchen wir den Einfluss der Fusion des zeitlichen Einbettungsansatzes mit traditionellen CM-Methoden und zeigen auf, wie diese Fusion die Generalisierung in SASV-Architekturen verbessert.