vor 2 Monaten

AASIST: Audio Anti-Spoofing mit integrierten spektro-temporalen Graph-Attention-Netzwerken

Jung, Jee-weon ; Heo, Hee-Soo ; Tak, Hemlata ; Shim, Hye-jin ; Chung, Joon Son ; Lee, Bong-Jin ; Yu, Ha-Jin ; Evans, Nicholas

Details der Forschungsarbeit anzeigen

AASIST: Audio Anti-Spoofing mit integrierten spektro-temporalen Graph-Attention-Netzwerken

Abstract

Artefakte, die gefälschte von echten Aussagen unterscheiden, können sich im spektralen oder zeitlichen Bereich befinden. Ihre zuverlässige Erkennung hängt in der Regel von rechenintensiven Ensemble-Systemen ab, bei denen jedes Teilsystem auf bestimmte Artefakte abgestimmt ist. Unser Ziel ist es, ein effizientes, einzelnes System zu entwickeln, das einen breiten Spektrum verschiedener Spoofing-Angriffe ohne Score-Level-Ensembles erkennen kann. Wir schlagen eine neuartige heterogene Stapel-Graph-Attention-Schicht vor, die Artefakte in heterogenen zeitlichen und spektralen Bereichen mit einem heterogenen Aufmerksamkeitsmechanismus und einem Stapelknoten modelliert. Durch eine neue Max-Graph-Operation, die ein Wettbewerbsmechanismus und ein erweitertes Readout-Schema beinhaltet, übertrifft unser Ansatz, AASIST genannt, den aktuellen Stand der Technik um 20 % relativ. Selbst eine leichte Variante, AASIST-L, mit nur 85.000 Parametern, übertrifft alle konkurrierenden Systeme.