C3AE : Exploration des limites d'un modèle compact pour l'estimation de l'âge

L'estimation de l'âge est un problème classique d'apprentissage en vision par ordinateur. De nombreux réseaux de neurones convolutifs (CNN) plus grands et plus profonds ont été proposés avec des performances prometteuses, tels que AlexNet, VggNet, GoogLeNet et ResNet. Cependant, ces modèles ne sont pas pratiques pour les appareils embarqués ou mobiles. Récemment, MobileNets et ShuffleNets ont été introduits pour réduire le nombre de paramètres, générant ainsi des modèles légers. Cependant, leur capacité de représentation a été affaiblie en raison de l'utilisation de la convolution séparable en profondeur. Dans cette étude, nous explorons les limites des modèles compacts pour les images à petite échelle et proposons un modèle d'Estimation d'Âge Basée sur le Contexte en Cascade (C3AE) extrêmement compact mais efficace. Ce modèle possède seulement 1/9 et 1/2000 des paramètres par rapport aux MobileNets/ShuffleNets et VggNet, tout en atteignant des performances compétitives. Plus précisément, nous redéfinissons le problème d'estimation de l'âge par une représentation à deux points, mise en œuvre par un modèle en cascade. De plus, afin d'utiliser pleinement les informations contextuelles du visage, un réseau CNN multi-branches est proposé pour agréger le contexte à différentes échelles. Des expériences ont été menées sur trois jeux de données d'estimation de l'âge. Une performance state-of-the-art a été obtenue sur les modèles compacts avec une marge relativement importante.