Un appel à réfléchir sur les pratiques d'évaluation en estimation d'âge : analyse comparative des approaches de pointe et benchmark unifié

La comparaison des différentes méthodes d’estimation de l’âge se heurte à un défi majeur en raison de l’insuffisance de fiabilité des résultats publiés, résultant d’incohérences dans le processus d’évaluation. Des études antérieures ont rapporté une amélioration continue des performances au cours de la dernière décennie grâce à des méthodes spécialisées ; toutefois, nos résultats remettent en question ces affirmations. Ce papier identifie deux problèmes simples mais persistants dans le protocole d’évaluation actuellement utilisé, et décrit comment les résoudre. Nous proposons une analyse comparative approfondie des méthodes de pointe en estimation de l’âge facial. De manière surprenante, nous constatons que les différences de performance entre les méthodes sont négligeables par rapport à l’impact d’autres facteurs, tels que l’alignement facial, la couverture faciale, la résolution des images, l’architecture du modèle ou la quantité de données utilisées pour le pré-entraînement. À partir de ces observations, nous proposons d’utiliser FaRL comme modèle de base et démontrons son efficacité sur toutes les bases de données publiques. Nous mettons à disposition le code source et les partitions exactes des données sur GitHub.