Suche nach zentralen Differenz-Faltungsnetzwerken für Gesichts-Anti-Spoofing

Gesichtsanti-Spoofing (FAS) spielt eine entscheidende Rolle in Gesichtserkennungssystemen. Die meisten aktuellen FAS-Methoden basieren 1) auf gestapelten Faltungen und von Experten entworfenen Netzwerken, die Schwächen im Beschreiben detaillierter, feinkörniger Informationen aufweisen und leicht ineffektiv werden, wenn sich die Umgebung ändert (z. B. bei unterschiedlicher Beleuchtung), und 2) bevorzugen die Verwendung langer Eingabesequenzen zur Extraktion dynamischer Merkmale, was ihre Implementierung in Szenarien erschwert, die eine schnelle Reaktionszeit erfordern. In diesem Beitrag präsentieren wir eine neuartige Frame-basierte FAS-Methode auf Basis der Central Difference Convolution (CDC), die in der Lage ist, inhärente, detaillierte Muster durch die Aggregation sowohl von Intensitäts- als auch von Gradienteninformationen zu erfassen. Ein mit CDC aufgebautes Netzwerk, das sogenannte Central Difference Convolutional Network (CDCN), bietet eine robusteren Modellierungsfähigkeit im Vergleich zu Netzwerken, die auf herkömmlichen Faltungen basieren. Darüber hinaus wird über einen speziell entworfenen CDC-Suchraum Neural Architecture Search (NAS) eingesetzt, um eine leistungsfähigere Netzwerkarchitektur (CDCN++) zu entdecken, die durch den Einsatz eines Multiscale Attention Fusion Modules (MAFM) weiter verbessert werden kann. Umfassende Experimente wurden auf sechs etablierten Benchmark-Datensätzen durchgeführt, die zeigen, dass 1) die vorgeschlagene Methode nicht nur eine herausragende Leistung bei der intra-dataset-Tests (insbesondere 0,2 % ACER im Protocol-1 des OULU-NPU-Datensatzes) erzielt, sondern auch eine gute Generalisierungsfähigkeit bei cross-dataset-Tests aufweist (insbesondere 6,5 % HTER von CASIA-MFSD auf Replay-Attack-Datensätze). Der Quellcode ist unter \href{https://github.com/ZitongYu/CDCN}{https://github.com/ZitongYu/CDCN} verfügbar.