il y a 17 jours

Pixel-in-Pixel Net : Vers une détection efficace des points de repère faciaux dans des conditions naturelles

Haibo Jin, Shengcai Liao, Ling Shao

Résumé

Récemment, les modèles de régression de cartes de chaleur (heatmap regression) sont devenus populaires en raison de leurs performances supérieures dans la localisation des points de repère faciaux. Toutefois, trois problèmes majeurs persistent encore dans ces modèles : (1) leur coût computationnel élevé ; (2) leur manque habituel de contraintes explicites sur les formes globales ; (3) la présence fréquente d’écartements de domaine. Pour remédier à ces défis, nous proposons Pixel-in-Pixel Net (PIPNet), un modèle dédié à la détection des points de repère faciaux. Le modèle proposé intègre une nouvelle tête de détection basée sur la régression de cartes de chaleur, capable de prédire simultanément les scores et les décalages sur des cartes de caractéristiques à faible résolution. Grâce à cette approche, les couches de redimensionnement répétées deviennent inutiles, permettant ainsi une réduction significative du temps d’inférence sans compromettre la précision du modèle. Par ailleurs, nous introduisons un module de régression de voisinage simple mais efficace, qui impose des contraintes locales en fusionnant les prédictions provenant des points de repère voisins, renforçant ainsi la robustesse de la nouvelle tête de détection. Pour améliorer davantage la capacité de généralisation du modèle sur des domaines variés, nous proposons une stratégie d’auto-entraînement avec curriculum. Cette méthode permet d’extraire des pseudo-étiquettes plus fiables à partir de données non étiquetées issues de différents domaines, en commençant par des tâches plus simples puis en augmentant progressivement la difficulté afin d’obtenir des étiquettes plus précises. Des expériences étendues démontrent l’efficacité de PIPNet, qui atteint des résultats de pointe sur trois des six benchmarks populaires dans un cadre supervisé. Les performances sur deux jeux de test inter-domaines sont également améliorées de manière cohérente par rapport aux méthodes de référence. Notamment, la version légère de PIPNet fonctionne à 35,7 FPS sur CPU et à 200 FPS sur GPU, tout en maintenant une précision compétitive par rapport aux méthodes les plus avancées. Le code source de PIPNet est disponible à l’adresse suivante : https://github.com/jhb86253817/PIPNet.