HyperAIHyperAI
il y a 16 jours

Apprentissage régional profond et multi-label pour la détection des unités d’action faciales

{Wen-Sheng Chu, Kaili Zhao, Honggang Zhang}
Apprentissage régional profond et multi-label pour la détection des unités d’action faciales
Résumé

L’apprentissage régional (RL) et l’apprentissage multi-label (ML) ont récemment suscité un intérêt croissant dans le domaine de la détection des unités d’action faciale (AU). Étant donné que les AU s’activent sur des régions faciales éparses, le RL vise à identifier ces régions afin d’améliorer la spécificité. D’un autre côté, des preuves statistiques solides indiquent des corrélations entre les AU, ce qui rend le ML une approche naturelle pour modéliser la tâche de détection. Dans cet article, nous proposons Deep Region and Multi-label Learning (DRML), un réseau profond unifié qui traite simultanément ces deux problèmes. Un aspect crucial de DRML réside dans une nouvelle couche régionale qui utilise des fonctions feed-forward pour induire les régions faciales pertinentes, en forçant les poids appris à capturer l’information structurale du visage. Cette couche régionale constitue une alternative entre les couches localement connectées (où les noyaux sont confinés à des pixels individuels) et les couches de convolution conventionnelles (où les noyaux sont partagés sur l’ensemble de l’image). Contrairement aux études antérieures qui résolvaient le RL et le ML de manière itérative, DRML, par sa conception même, traite les deux problèmes simultanément, permettant ainsi une interaction plus directe entre ces deux problèmes apparemment indépendants. Le réseau complet est entièrement entraînable en bout à bout et apprend automatiquement des représentations robustes aux variations inhérentes à chaque région locale. Des expériences menées sur les benchmarks BP4D et DISFA montrent que DRML obtient le meilleur score F1 moyen ainsi que le meilleur AUC, tant à l’intérieur qu’entre les jeux de données, par rapport aux méthodes alternatives.

Apprentissage régional profond et multi-label pour la détection des unités d’action faciales | Articles de recherche récents | HyperAI