HyperAIHyperAI

Command Palette

Search for a command to run...

Fusionsverfahren für multimodale Informationen zur Sprachspoofing-Erkennung

Lei Shi Bin Wu Huawei Song Hao Zhou Junxiao Xue

Zusammenfassung

In den letzten Jahren wurden Sprachverifizierungssysteme in zahlreichen Produktionsumgebungen eingesetzt. Leider sind sie nach wie vor äußerst anfällig gegenüber verschiedenen Arten von Spoofing-Angriffen, wie beispielsweise Angriffen mittels Sprachsynthese oder Wiedergabeangriffen. Forscher haben bereits zahlreiche Ansätze vorgeschlagen, um solche Angriffe abzuwehren. In den bisherigen Methoden konzentrierten sich die Forscher jedoch ausschließlich auf Sprachmerkmale. In jüngsten Studien zeigte sich jedoch, dass Sprache eine große Menge an Gesichtsinformationen enthält. Tatsächlich können wir anhand der Stimme das Geschlecht, das Alter sowie die Mundform des Sprechers und weitere Merkmale bestimmen. Diese zusätzlichen Informationen können uns dabei unterstützen, Spoofing-Angriffe zu erkennen. Inspiriert durch dieses Phänomen stellen wir einen verallgemeinerten Rahmen namens GACMNet vor. Um unterschiedliche Angriffsszenarien zu bewältigen, haben wir zwei verschiedene Modelle implementiert. Unser Framework gliedert sich hauptsächlich in eine Phase der Datenvorverarbeitung, eine Merkmalsextraktion, eine Merkmalsfusion und eine Klassifikationsphase. Konkret besteht unser Ansatz aus zwei parallelen Zweigen: Einerseits extrahieren wir Gesichtsmerkmale aus der Sprache mittels eines neuronalen Netzwerks mit Faltungen (Convolutional Neural Network). Andererseits nutzen wir ein dicht verbundenes Netzwerk (Densely Connected Network), um Sprachmerkmale zu extrahieren. Zudem haben wir eine globalen Aufmerksamkeits-basierte Informationsfusion entwickelt, um die Relevanz einzelner Merkmalskomponenten gezielt zu differenzieren. Unser Ansatz erwies sich in zwei großen Szenarien als wirksam. Im Vergleich zu bestehenden Methoden verbessert unser Modell die Tandem-Entscheidungskostenfunktion (t-DCF) um 9 % und die Gleichfehlerquote (EER) um 11 % im Szenario des logischen Zugriffs. Im Szenario des physischen Zugriffs verbessert das Modell die EER um 10 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Fusionsverfahren für multimodale Informationen zur Sprachspoofing-Erkennung | Paper | HyperAI