HyperAIHyperAI
il y a 17 jours

Évaluation profonde de l'esthétique photographique préservant la composition

{Long Mai, Hailin Jin, Feng Liu}
Évaluation profonde de l'esthétique photographique préservant la composition
Résumé

L’évaluation de l’esthétique photographique est un défi complexe. Les méthodes basées sur les réseaux de neurones convolutifs profonds (ConvNet) ont récemment montré des résultats prometteurs dans ce domaine. Toutefois, la performance de ces approches ConvNet profondes est souvent compromise par la contrainte selon laquelle le réseau neuronal ne peut accepter que des entrées de taille fixe. Afin de satisfaire cette exigence, les images d’entrée doivent être transformées par découpage (cropping), redimensionnement (scaling) ou ajout de marges (padding), ce qui endommage fréquemment la composition de l’image, réduit sa résolution ou entraîne une distorsion visuelle, altérant ainsi l’esthétique originelle. Dans cet article, nous proposons une méthode ConvNet profonde préservant la composition, capable d’apprendre directement des caractéristiques esthétiques à partir des images d’entrée originales sans aucune transformation préalable. Plus précisément, notre méthode intègre une couche de pooling spatial adaptatif au-dessus des couches convolutives et de pooling régulières, permettant ainsi de traiter directement des images aux tailles et rapports d’aspect d’origine. Pour permettre une extraction de caractéristiques multi-échelle, nous avons conçu une architecture appelée Multi-Net Adaptive Spatial Pooling ConvNet, composée de plusieurs sous-réseaux ayant chacun une taille de pooling spatial adaptatif différente, et exploitant une couche d’agrégation basée sur le scénario pour combiner efficacement les prédictions issues de ces sous-réseaux. Nos expérimentations sur le benchmark à grande échelle d’évaluation esthétique (AVA) démontrent que notre méthode permet d’améliorer de manière significative les résultats les plus avancés dans le domaine de l’évaluation esthétique des photographies.