Modèles Myopes -- Les modèles de détection d'attaques par présentation de visage sont-ils myopes ?

Les attaques par présentation constituent une menace récurrente pour les systèmes biométriques, dans lesquelles des imposteurs tentent de contourner ces systèmes. Les êtres humains utilisent fréquemment des informations contextuelles provenant de l’arrière-plan pour guider leur système visuel. Toutefois, dans le cadre des systèmes basés sur le visage, l’arrière-plan est généralement ignoré, car les modèles de détection d’attaques par présentation faciale (PAD) sont principalement entraînés sur des images de visages coupées (crops). Ce travail présente une étude comparative de modèles de PAD faciale (incluant l’apprentissage multi-tâches, l’entraînement adversaire et la sélection dynamique des cadres) dans deux configurations : avec et sans crops. Les résultats montrent que les performances sont systématiquement meilleures lorsque l’arrière-plan est présent dans les images. La méthodologie multi-tâches proposée bat largement les résultats de l’état de l’art sur le jeu de données ROSE-Youtu, avec un taux d’erreur égal (EER) de 0,2 %. En outre, nous analysons les prédictions des modèles à l’aide de Grad-CAM++ afin d’évaluer dans quelle mesure ces derniers se concentrent sur des éléments de l’arrière-plan connus pour être utiles à l’inspection humaine. Cette analyse permet de conclure que les indices issus de l’arrière-plan ne sont pas pertinents dans tous les types d’attaques. Cela démontre ainsi la capacité du modèle à exploiter l’information d’arrière-plan uniquement lorsque cela est nécessaire.