HyperAIHyperAI
il y a 16 jours

Réseau Transformer Tanh-polaires pour la segmentation faciale dans des conditions réelles

Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic
Réseau Transformer Tanh-polaires pour la segmentation faciale dans des conditions réelles
Résumé

Le parsing de visage vise à prédire des étiquettes par pixel pour les composants faciaux d'une visage cible dans une image. Les approches existantes procèdent généralement par découpage de la visage cible à partir de l'image d'entrée, selon une boîte englobante calculée lors d'un prétraitement, et ne peuvent donc analyser que les régions intérieures d'intérêt (RoIs) de la face. Les régions périphériques, telles que les cheveux, sont ignorées, et d'autres visages partiellement inclus dans la boîte englobante peuvent entraîner des distractions. En outre, ces méthodes sont uniquement entraînées et évaluées sur des images de portrait presque frontales, et leur performance dans des scénarios réels (in-the-wild) reste inexplorée. Pour résoudre ces problèmes, ce papier apporte trois contributions. Premièrement, nous introduisons le jeu de données iBugMask pour le parsing de visage dans des conditions réelles, composé de 21 866 images d'entraînement et de 1 000 images de test. Les images d'entraînement sont obtenues par augmentation d'un jeu de données existant, incluant des poses faciales larges. Les images de test sont annotées manuellement selon 11 régions faciales, présentant de fortes variations en taille, pose, expression et arrière-plan. Deuxièmement, nous proposons une transformation Tanh-polaire RoI, qui transforme toute l'image en une représentation Tanh-polaire avec un rapport fixe entre la zone visage et le contexte, guidé par la boîte englobante cible. Cette nouvelle représentation conserve toutes les informations de l'image originale et permet une équivariance rotationnelle dans les réseaux de neurones convolutifs (CNN). Troisièmement, nous proposons un bloc d'apprentissage de représentation hybride résiduelle, nommé HybridBlock, qui intègre des couches convolutionnelles à la fois dans l'espace Tanh-polaire et dans l'espace Tanh-Cartésien, permettant ainsi des champs réceptifs de formes différentes dans les CNN. À travers des expériences étendues, nous démontrons que la méthode proposée améliore l'état de l'art pour le parsing de visage dans des conditions réelles, sans nécessiter de points de repère faciaux pour l'alignement.