SegFace : Segmentation faciale des classes à queue longue

L'analyse faciale (face parsing) fait référence à la segmentation sémantique des visages humains en régions faciales clés telles que les yeux, le nez, les cheveux, etc. Elle constitue une condition préalable pour diverses applications avancées, notamment l'édition de visage, l'échange de visage et le maquillage facial, qui nécessitent souvent des masques de segmentation pour des classes comme les lunettes, les chapeaux, les boucles d'oreilles et les colliers. Ces classes peu fréquentes sont appelées classes à queue longue (long-tail classes), qui sont éclipsées par des classes plus fréquentes connues sous le nom de classes tête (head classes). Les méthodes existantes, principalement basées sur les CNN (Convolutional Neural Networks), ont tendance à être dominées par les classes tête lors de l'entraînement, ce qui entraîne une représentation sous-optimale des classes à queue longue. Les travaux précédents ont largement négligé le problème de la mauvaise performance de segmentation des classes à queue longue. Pour remédier à cette problématique, nous proposons SegFace, une approche simple et efficace utilisant un modèle basé sur un transformateur léger qui exploite des jetons spécifiques aux classes apprenables. Le décodeur du transformateur utilise ces jetons spécifiques aux classes, permettant à chaque jeton de se concentrer sur sa classe correspondante, ce qui favorise ainsi la modélisation indépendante de chaque classe. L'approche proposée améliore la performance des classes à queue longue, ce qui booste globalement les performances. À notre connaissance, SegFace est la première étude à utiliser des modèles de transformateurs pour l'analyse faciale. De plus, notre approche peut être adaptée aux appareils embarqués à faible puissance de calcul, atteignant un taux de 95,96 images par seconde (FPS). Nous menons des expériences approfondies démontrant que SegFace dépasse significativement les modèles précédemment considérés comme étant au niveau de l'état de l'art, avec un score F1 moyen de 88,96 (+2,82) sur le jeu de données CelebAMask-HQ et 93,03 (+0,65) sur le jeu de données LaPa. Code : https://github.com/Kartik-3004/SegFace