MiVOLO : Transformers multi-entrées pour l'estimation de l'âge et du genre

La reconnaissance de l'âge et du sexe dans des conditions réelles est une tâche extrêmement complexe : en plus de la variabilité des conditions, des poses complexes et de la qualité variable des images, il existe des cas où le visage est partiellement ou complètement occulté. Nous présentons MiVOLO (Multi Input VOLO), une approche simple pour l'estimation de l'âge et du sexe utilisant les derniers modèles de transformers visuels. Notre méthode intègre les deux tâches dans un modèle d'entrée/sortie dual unifié, exploitant non seulement les informations faciales mais également les données d'images de personnes. Cela améliore la capacité de généralisation de notre modèle et lui permet de fournir des résultats satisfaisants même lorsque le visage n'est pas visible sur l'image. Pour évaluer notre modèle proposé, nous menons des expériences sur quatre benchmarks populaires et obtenons des performances à la pointe de l'état de l'art, tout en démontrant des capacités de traitement en temps réel.De plus, nous introduisons un nouveau benchmark basé sur des images provenant du Open Images Dataset. Les annotations vérités-terrain pour ce benchmark ont été soigneusement générées par des annotateurs humains, aboutissant à des réponses d'une grande précision grâce à une agrégation intelligente des votes. Par ailleurs, nous comparons les performances de notre modèle en reconnaissance d'âge avec celles d'un niveau humain et démontrons qu'il dépasse significativement les humains dans la majorité des tranches d'âge. Enfin, nous accordons un accès public à nos modèles, ainsi qu'au code pour la validation et l'inférence. De plus, nous fournissons des annotations supplémentaires pour les jeux de données utilisés et présentons notre nouveau benchmark.