il y a 11 jours

AGRNet : Apprentissage et raisonnement adaptatifs de représentation graphique pour le parsing facial

Gusi Te, Wei Hu, Yinglu Liu, Hailin Shi, Tao Mei

Résumé

Le parsing facial consiste à attribuer une étiquette par pixel à chaque composante faciale, une tâche qui suscite un intérêt croissant récemment. Les méthodes précédentes ont démontré leur efficacité dans le parsing facial, mais elles négligent souvent les corrélations entre les composantes faciales. Or, les relations entre composantes constituent une piste cruciale pour discriminer les pixels ambigus dans les régions faciales. Pour remédier à ce problème, nous proposons une méthode d’apprentissage et de raisonnement adaptatif sur la représentation graphique des composantes faciales, visant à apprendre des sommets représentatifs décrivant chaque composante, à exploiter les relations entre composantes et ainsi produire des résultats de parsing précis, même en présence d’ambiguïté. Plus précisément, nous avons conçu une méthode d’abstraction graphique adaptative et différentiable, qui représente les composantes sur un graphe via une projection pixel-sommet à partir d’une carte de parsing prédite initiale, où les caractéristiques des pixels situés dans une même région faciale sont agrégées sur un sommet. Par ailleurs, nous intégrons explicitement le contour d’image comme prior dans le modèle, ce qui permet de mieux distinguer les pixels situés sur les bords des autres, améliorant ainsi la précision du parsing le long des contours. Ensuite, notre modèle apprend et raisonne sur les relations entre composantes en propagant l’information à travers les sommets du graphe. Enfin, les caractéristiques des sommets raffinées sont projetées de nouveau sur une grille de pixels afin de prédire la carte finale de parsing. Pour entraîner notre modèle, nous proposons une fonction de perte discriminative qui pénalise les distances trop faibles entre les sommets dans l’espace des caractéristiques, conduisant à des sommets distincts aux significations sémantiques fortes. Les résultats expérimentaux démontrent la supériorité du modèle proposé sur plusieurs jeux de données de parsing facial, ainsi que sa généralisation, validée sur la tâche de parsing humain.