il y a 2 mois

Supervision par enregistrement : Une approche non supervisée pour améliorer la précision des détecteurs de points caractéristiques faciaux

Xuanyi Dong; Shoou-I Yu; Xinshuo Weng; Shih-En Wei; Yi Yang; Yaser Sheikh

Résumé

Dans cet article, nous présentons la supervision par enregistrement, une approche non supervisée visant à améliorer la précision des détecteurs de points d'intérêt faciaux sur les images et les vidéos. Notre observation clé est que les détections du même point d'intérêt dans des cadres adjacents doivent être cohérentes avec l'enregistrement, c'est-à-dire le flot optique. De manière intéressante, la cohérence du flot optique est une source de supervision qui ne nécessite pas d'étiquetage manuel et peut être exploitée lors de l'entraînement du détecteur. Par exemple, nous pouvons imposer dans la fonction de perte d'entraînement qu'un point d'intérêt détecté au cadre${t-1}$ suivi par un suivi de flot optique du cadre${t-1}$ au cadre$_t$ doit coïncider avec l'emplacement de la détection au cadre$_t$. En substance, la supervision par enregistrement enrichit la fonction de perte d'entraînement avec une perte d'enregistrement, entraînant ainsi le détecteur à produire des résultats non seulement proches des annotations dans les images étiquetées, mais également cohérents avec l'enregistrement sur de grandes quantités de vidéos non étiquetées. L'entraînement end-to-end avec la perte d'enregistrement est rendu possible grâce à une opération différentiable de Lucas-Kanade, qui calcule l'enregistrement du flot optique lors du passage avant et rétropropage les gradients encourageant la cohérence temporelle dans le détecteur. La sortie de notre méthode est un détecteur plus précis de points d'intérêt faciaux basé sur les images, qui peut être appliqué aux images individuelles ou aux vidéos. Avec la supervision par enregistrement, nous démontrons (1) des améliorations dans la détection des points d'intérêt faciaux tant sur les images (300W, ALFW) que sur les vidéos (300VW, Youtube-Celebrities), et (2) une réduction significative du brouillage dans les détections vidéo.