HyperAIHyperAI
il y a 17 jours

Lorsque le tonneau de Liebig rencontre la détection des points clés faciaux : un modèle pratique

Haibo Jin, Jinpeng Li, Shengcai Liao, Ling Shao
Lorsque le tonneau de Liebig rencontre la détection des points clés faciaux : un modèle pratique
Résumé

Ces dernières années, des progrès significatifs ont été réalisés dans le domaine de la détection des points de repère faciaux. Toutefois, peu de travaux antérieurs ont examiné de manière approfondie les modèles adaptés aux applications pratiques. En effet, ces études se concentrent souvent sur l’amélioration de quelques aspects à la fois, tout en ignorant les autres. Afin de combler cette lacune, nous visons à explorer un modèle pratique capable d’offrir à la fois une grande précision, une robustesse élevée, une efficacité optimale, une bonne généralisation et une entraînabilité end-to-end. À cette fin, nous proposons tout d’abord un modèle de base doté d’un décodeur transformer comme tête de détection. Pour améliorer davantage la précision, nous introduisons deux modules légers : une initialisation dynamique des requêtes (DQInit) et une mémoire sensible aux requêtes (QAMem). Plus précisément, DQInit initialise dynamiquement les requêtes du décodeur à partir des entrées, permettant au modèle d’atteindre une précision comparable à celle des modèles dotés de plusieurs couches de décodeur. QAMem est conçu pour renforcer la capacité discriminante des requêtes sur des cartes de caractéristiques à faible résolution en attribuant une valeur de mémoire distincte à chaque requête, plutôt qu’une mémoire partagée. Grâce à QAMem, notre modèle se libère de la dépendance aux cartes de caractéristiques à haute résolution tout en maintenant une précision supérieure. Des expérimentations abondantes et une analyse approfondie menées sur trois benchmarks populaires démontrent l’efficacité et les avantages pratiques du modèle proposé. Notamment, notre modèle atteint un nouveau état de l’art sur WFLW, tout en obtenant des résultats compétitifs sur 300W et COFW, tout en fonctionnant à plus de 50 FPS.