HyperAIHyperAI
il y a 18 jours

ATF : Vers une alignment facial robuste en exploitant la similarité et la diversité à travers différents jeux de données

{Jian Cheng, Cong Leng, Fangzhou Xiong, Qinghao Hu, Xing Lan}
Résumé

L’alignement facial est une tâche importante dans le domaine des multimédias. Parallèlement aux progrès remarquables des algorithmes, de nombreuses bases de données étiquetées ont été publiées ces dernières années. De manière intuitive, il est pertinent d’intégrer plusieurs bases de données annotées, aux annotations différentes, afin d’améliorer les performances d’un détecteur de points de repère ciblé. Bien que de nombreux efforts aient été déployés pour une utilisation conjointe, les travaux récents présentent encore trois limites majeures : une charge computationnelle supplémentaire, une contrainte du schéma d’annotation, et un soutien limité aux méthodes de régression. Pour surmonter ces problèmes, nous proposons un nouveau cadre d’apprentissage alterné (Alternating Training Framework, ATF), qui exploite à la fois la similarité et la diversité entre différentes sources multimédias afin d’obtenir un détecteur plus robuste. Notre cadre repose principalement sur deux sous-modules : l’apprentissage alterné à proportions décroissantes (Alternating Training with Decreasing Proportions, ATDP) et la perte par branche mixte (Mixed Branch Loss, \mathcal{L}{MB}). Plus précisément, ATDP entraîne simultanément plusieurs bases de données afin de tirer parti de la diversité entre elles, tandis que \mathcal{L}{MB} utilise des paires de points de repère similaires pour contraindre les différentes branches correspondant aux différentes bases. Des expériences étendues sur diverses bases de données démontrent l’efficacité de notre cadre, et ATF s’avère adapté aussi bien aux réseaux basés sur les cartes de chaleur qu’aux méthodes de régression directe des coordonnées. En particulier, l’erreur moyenne atteint même 3,17 sur l’expérience menée sur 300W en utilisant WFLW, dépassant significativement les méthodes de pointe. Que ce soit dans un réseau convolutif ordinaire (OCN) ou dans HRNet, ATF permet une amélioration relative maximale de 9,96 %. Les codes sources sont disponibles publiquement à l’adresse suivante : https://github.com/starhiking/ATF.