A-Lamp : Réseau de Neurones Profonds à Multi-Patch Adaptatif et Conscient du Disposition pour l'Évaluation Esthétique des Photos

Les réseaux de neurones convolutifs profonds (CNN) ont récemment montré des résultats prometteurs pour l'évaluation esthétique. Cependant, les performances de ces méthodes de CNN profondes sont souvent compromises par la contrainte que le réseau neuronal ne prend en entrée que des images de taille fixe. Pour satisfaire cette exigence, les images d'entrée doivent être transformées par recadrage, déformation ou remplissage, ce qui modifie souvent la composition de l'image, réduit sa résolution ou provoque une distorsion. Ainsi, l'esthétique des images originales est altérée en raison d'une perte potentielle de détails fins et d'un agencement global d'image. Or, ces détails fins et cet agencement global sont cruciaux pour évaluer l'esthétique d'une image. Dans cet article, nous présentons une architecture de réseau neuronal convolutif multi-patch adaptatif sensible au layout (A-Lamp CNN) pour l'évaluation esthétique photographique. Ce nouveau schéma est capable d'accepter des images de taille quelconque et d'apprendre simultanément à partir de détails fins et d'un agencement global d'image. Pour permettre l'entraînement sur ces entrées hybrides, nous étendons la méthode en développant une structure neuronale dédiée à double sous-réseau, c'est-à-dire un sous-réseau multi-patch et un sous-réseau sensible au layout. Nous construisons également une couche d'agrégation pour combiner efficacement les caractéristiques hybrides provenant de ces deux sous-réseaux. De nombreuses expériences menées sur le grand ensemble de référence pour l'évaluation esthétique (AVA) montrent une amélioration significative des performances par rapport aux méthodes les plus avancées dans le domaine de l'évaluation esthétique photographique.