End-to-End Spektro-temporale Graph-Attention-Netzwerke für die Sprecheridentifikations-Überprüfung gegen Spoofing und die Erkennung von Sprach-Deepfakes

Artefakte, die dazu dienen, echte Sprache von gefälschter oder Deepfake-Sprache zu unterscheiden, sind bekanntermaßen in bestimmten Unterbändern und zeitlichen Segmenten lokalisiert. Verschiedene Ansätze können eingesetzt werden, um solche Artefakte zu erfassen und zu modellieren; dennoch funktioniert keiner dieser Ansätze zuverlässig über einen breiten Spektrum an unterschiedlichen Spoofing-Angriffen hinweg. Eine zuverlässige Erkennung hängt daher oft von der Fusion mehrerer Detektionssysteme ab, wobei jedes System auf die Erkennung spezifischer Angriffsformen abgestimmt ist. In diesem Artikel zeigen wir, dass eine bessere Leistung erzielt werden kann, wenn die Fusion innerhalb des Modells selbst erfolgt und die Darstellung automatisch aus Rohwelleneingaben gelernt wird. Der zentrale Beitrag ist ein spektral-temporaler Graph-Attention-Netzwerk (GAT), das die Beziehungen zwischen Hinweisen, die sich über verschiedene Unterbänder und zeitliche Intervalle erstrecken, lernt. Durch eine modellbasierte Graphfusion von spektralen (S) und temporalen (T) Teilgraphen sowie eine Graph-Pooling-Strategie zur Verbesserung der Unterscheidbarkeit erreicht das vorgeschlagene RawGAT-ST-Modell eine Equal Error Rate von 1,06 % auf der ASVspoof 2019 Logical-Access-Datenbank. Dies ist eine der bisher besten veröffentlichten Ergebnisse und ist mit einer Open-Source-Implementierung reproduzierbar.