Exploiter les variations intra-et inter-jeux de données pour une alignment faciale robuste

L’alignement des visages est un sujet crucial au sein de la communauté de la vision par ordinateur. Au cours des dernières décennies, de nombreux efforts ont été fournis et diverses bases de données de référence ont été publiées. Toutefois, deux problèmes majeurs persistent dans les bases de données récentes : la variation intra-ensemble (Intra-Dataset Variation) et la variation inter-ensembles (Inter-Dataset Variation). La variation inter-ensembles désigne les biais liés à l’expression, à l’orientation de la tête, etc., présents au sein d’un ensemble de données donné, tandis que la variation intra-ensemble fait référence aux biais différents observés entre différents ensembles de données. Pour relever ces défis, nous proposons un nouveau réseau profond appelé Deep Variation Leveraging Network (DVLN), composé de deux sous-réseaux fortement couplés : le Dataset-Across Network (DA-Net) et le Candidate-Decision Network (CD-Net). Des évaluations étendues montrent que notre approche atteint des performances en temps réel et surpasse de manière significative les méthodes de pointe sur le défi 300-W.