Réseau de Classement d’Esthétique Photographique avec Adaptation des Attributs et du Contenu

Les applications réelles pourraient bénéficier de la capacité à générer automatiquement un classement détaillé de l'esthétique des photos. Cependant, les méthodes précédentes d'analyse de l'esthétique des images se sont principalement concentrées sur la catégorisation binaire grossière des images en catégories esthétiques hautes ou basses. Dans ce travail, nous proposons d'apprendre un réseau neuronal convolutif profond pour classer l'esthétique des photos, dans lequel le classement relatif de l'esthétique est directement modélisé dans la fonction de perte. Notre modèle intègre l'apprentissage conjoint d'attributs photographiques pertinents et d'informations sur le contenu des images, ce qui peut aider à régulariser le problème complexe de notation de l'esthétique des photos.Pour former et analyser ce modèle, nous avons rassemblé une nouvelle base de données d'esthétique et d'attributs (AADB), qui contient des scores esthétiques et des attributs pertinents attribués à chaque image par plusieurs évaluateurs humains. Les identités anonymisées des évaluateurs sont enregistrées pour chaque image, ce qui nous permet d'exploiter la cohérence inter-évaluateur grâce à une stratégie d'échantillonnage novatrice lors du calcul de la perte de classement des paires d'images d'entraînement. Nous montrons que la stratégie d'échantillonnage proposée est très efficace et robuste face au jugement subjectif de l'esthétique des images par des individus ayant différents goûts esthétiques. Des expériences démontrent que notre modèle unifié peut générer des classements esthétiques plus cohérents avec les notations humaines. Pour valider davantage notre modèle, nous montrons qu'en appliquant simplement un seuil aux scores esthétiques estimés, nous sommes capables d'atteindre des performances de classification de pointe sur le benchmark du jeu de données AVA existant.