Sur l'amélioration de la cohérence temporelle pour la détection en ligne de la vivacité faciale

Dans cet article, nous nous concentrons sur l'amélioration du système de détection de vivacité faciale en ligne afin d'augmenter la sécurité du système de reconnaissance faciale en aval. La plupart des méthodes existantes basées sur les trames souffrent d'une incohérence prédictive au fil du temps. Pour résoudre ce problème, nous proposons une solution simple mais efficace fondée sur la cohérence temporelle. Plus précisément, durant la phase d'entraînement, afin d'intégrer une contrainte de cohérence temporelle, nous introduisons une perte de self-supervision temporelle et une perte de cohérence de classe, en complément de la perte d'entropie croisée softmax. En phase de déploiement, nous développons un module d'estimation d'incertitude non paramétrique, sans entraînement, pour lisser de manière adaptative les prédictions. Au-delà de l'évaluation classique, nous proposons une évaluation basée sur des segments vidéo afin de mieux refléter des scénarios plus pratiques. Des expériences étendues démontrent que notre approche est plus robuste face à diverses attaques par présentation dans différents contextes, et surpasse significativement l'état de l'art sur plusieurs jeux de données publics, avec au moins 40 % de réduction du taux d'erreur d'acceptation de faux positifs (ACER). En outre, avec une complexité computationnelle bien moindre (33 % d'opérations flottantes en moins), elle présente un grand potentiel pour les applications en ligne à faible latence.