AASIST: Audio Anti-Spoofing mit integrierten spektro-temporalen Graph-Attention-Netzwerken

Artefakte, die gefälschte von echten Aussagen unterscheiden, können sich im spektralen oder zeitlichen Bereich befinden. Ihre zuverlässige Erkennung hängt in der Regel von rechenintensiven Ensemble-Systemen ab, bei denen jedes Teilsystem auf bestimmte Artefakte abgestimmt ist. Unser Ziel ist es, ein effizientes, einzelnes System zu entwickeln, das einen breiten Spektrum verschiedener Spoofing-Angriffe ohne Score-Level-Ensembles erkennen kann. Wir schlagen eine neuartige heterogene Stapel-Graph-Attention-Schicht vor, die Artefakte in heterogenen zeitlichen und spektralen Bereichen mit einem heterogenen Aufmerksamkeitsmechanismus und einem Stapelknoten modelliert. Durch eine neue Max-Graph-Operation, die ein Wettbewerbsmechanismus und ein erweitertes Readout-Schema beinhaltet, übertrifft unser Ansatz, AASIST genannt, den aktuellen Stand der Technik um 20 % relativ. Selbst eine leichte Variante, AASIST-L, mit nur 85.000 Parametern, übertrifft alle konkurrierenden Systeme.