HyperAIHyperAI
vor 12 Tagen

Fusionsverfahren für multimodale Informationen zur Sprachspoofing-Erkennung

{Lei Shi, Bin Wu, Huawei Song, Hao Zhou, Junxiao Xue}
Abstract

In den letzten Jahren wurden Sprachverifizierungssysteme in zahlreichen Produktionsumgebungen eingesetzt. Leider sind sie nach wie vor äußerst anfällig gegenüber verschiedenen Arten von Spoofing-Angriffen, wie beispielsweise Angriffen mittels Sprachsynthese oder Wiedergabeangriffen. Forscher haben bereits zahlreiche Ansätze vorgeschlagen, um solche Angriffe abzuwehren. In den bisherigen Methoden konzentrierten sich die Forscher jedoch ausschließlich auf Sprachmerkmale. In jüngsten Studien zeigte sich jedoch, dass Sprache eine große Menge an Gesichtsinformationen enthält. Tatsächlich können wir anhand der Stimme das Geschlecht, das Alter sowie die Mundform des Sprechers und weitere Merkmale bestimmen. Diese zusätzlichen Informationen können uns dabei unterstützen, Spoofing-Angriffe zu erkennen. Inspiriert durch dieses Phänomen stellen wir einen verallgemeinerten Rahmen namens GACMNet vor. Um unterschiedliche Angriffsszenarien zu bewältigen, haben wir zwei verschiedene Modelle implementiert. Unser Framework gliedert sich hauptsächlich in eine Phase der Datenvorverarbeitung, eine Merkmalsextraktion, eine Merkmalsfusion und eine Klassifikationsphase. Konkret besteht unser Ansatz aus zwei parallelen Zweigen: Einerseits extrahieren wir Gesichtsmerkmale aus der Sprache mittels eines neuronalen Netzwerks mit Faltungen (Convolutional Neural Network). Andererseits nutzen wir ein dicht verbundenes Netzwerk (Densely Connected Network), um Sprachmerkmale zu extrahieren. Zudem haben wir eine globalen Aufmerksamkeits-basierte Informationsfusion entwickelt, um die Relevanz einzelner Merkmalskomponenten gezielt zu differenzieren. Unser Ansatz erwies sich in zwei großen Szenarien als wirksam. Im Vergleich zu bestehenden Methoden verbessert unser Modell die Tandem-Entscheidungskostenfunktion (t-DCF) um 9 % und die Gleichfehlerquote (EER) um 11 % im Szenario des logischen Zugriffs. Im Szenario des physischen Zugriffs verbessert das Modell die EER um 10 %.

Fusionsverfahren für multimodale Informationen zur Sprachspoofing-Erkennung | Neueste Forschungsarbeiten | HyperAI