HyperAIHyperAI
il y a 12 jours

EHANet : Un réseau de regroupement hiérarchique efficace pour la segmentation faciale

{Xinglong Feng, Dingyu Xue, Ling Luo}
Résumé

Ces dernières années, grâce aux réseaux neuronaux convolutifs profonds (DCNN), la segmentation faciale a connu un développement rapide. Toutefois, elle soulève encore plusieurs problèmes : (1) les architectures d'état de l'art actuelles peinent à atteindre le temps réel tout en poursuivant de hautes performances ; (2) des apparences similaires entraînent des attributions incorrectes de labels aux pixels, en particulier aux frontières ; (3) pour améliorer la prédiction multi-échelle, les caractéristiques profondes et les caractéristiques superficielles sont fusionnées sans tenir compte de l’écart sémantique entre elles. Afin de surmonter ces limitations, nous proposons un réseau hiérarchique d’agrégation efficace et performant, appelé EHANet, pour une segmentation faciale rapide et précise. Plus précisément, nous introduisons d’abord un mécanisme d’attention contextuelle par étape (SCAM), qui utilise l’information contextuelle de niveau supérieur pour ré-encoder les canaux en fonction de leur importance. Ensuite, nous proposons un bloc de compensation de l’écart sémantique (SGCB), afin d’assurer une agrégation efficace des informations hiérarchiques. Enfin, l’avantage d’une fonction de perte pondérée sensible aux frontières permet de corriger efficacement l’ambiguïté sémantique aux frontières. Sans recourir à des techniques superflues, et en combinant un modèle de base léger, nous obtenons des résultats remarquables sur les jeux de données CelebAMask-HQ (78,19 % de mIoU) et Helen (90,7 % de score F1). De plus, notre modèle atteint 55 FPS sur une seule carte GTX 1080Ti avec une entrée de 640 × 640, et dépasse 300 FPS pour une résolution de 256 × 256, ce qui le rend adapté aux applications réelles.

EHANet : Un réseau de regroupement hiérarchique efficace pour la segmentation faciale | Articles de recherche récents | HyperAI