Prédiction efficace de l'esthétique avec des caractéristiques multi-niveaux agrégées spatialement

Nous proposons une approche efficace d'apprentissage profond pour l'évaluation de la qualité esthétique, qui repose sur un nouveau type de caractéristiques pré-entraînées, et nous l'appliquons au jeu de données AVA, actuellement la plus grande base de données en matière d'esthétique. Alors que les approches précédentes omettent certaines informations des images originales, en raison de prélèvements de petites zones, de réduction d'échelle ou de déformation des originaux lors de l'entraînement, nous présentons la première méthode capable d'accepter efficacement des images en résolution complète comme entrée et pouvant être entraînée sur des tailles d'entrée variables. Cela nous permet d'améliorer considérablement l'état de l'art, en augmentant le coefficient de corrélation par rangs de Spearman (SRCC) des notes moyennes d'opinion (MOS) issues des données réelles du meilleur rapport existant actuellement (0,612) à 0,756. Pour atteindre cette performance, nous extrayons des caractéristiques multi-niveaux spatialement regroupées (MLSP) à partir de tous les blocs convolutifs d'un réseau InceptionResNet-v2 pré-entraîné, puis nous formons une architecture personnalisée de réseau neuronal convolutif peu profond (CNN) sur ces nouvelles caractéristiques.