Apprendre les Réseaux Neuronaux Convolutifs pour la Détection de Présentation Artificielle du Visage

Bien que certains progrès aient été réalisés, les caractéristiques texturales manuellement conçues, par exemple LBP [23], LBP-TOP [11], ne sont toujours pas capables de capturer les indices les plus discriminants entre les visages authentiques et faux. Dans cet article, au lieu de concevoir nous-mêmes des caractéristiques, nous nous appuyons sur un réseau neuronal convolutif profond (CNN) pour apprendre des caractéristiques à forte capacité discriminante de manière supervisée. Associées à certaines techniques de prétraitement des données, les performances d'anti-spoofing facial s'améliorent considérablement. Dans les expériences, une diminution relative supérieure à 70 % du taux d'erreur total moitié (HTER) est obtenue sur deux ensembles de données difficiles, CASIA [36] et REPLAY-ATTACK [7], par rapport aux méthodes de pointe actuelles. Par ailleurs, les résultats expérimentaux issus des tests inter-ensembles de données indiquent que la CNN peut obtenir des caractéristiques avec une meilleure capacité de généralisation. De plus, les réseaux entraînés à l'aide de données combinées provenant des deux ensembles de données présentent moins de biais entre ces ensembles.