HyperAIHyperAI
il y a 16 jours

Aggrégation multi-patch basée sur l'attention pour l'évaluation esthétique d'images

{Wei-Ming Dong, Bao-Gang Hu, Kekai Sheng, Chongyang Ma, Xing Mei, Feiyue Huang}
Résumé

Les structures d’agrégation intégrant des informations explicites, telles que les attributs d’image et les sémantiques scéniques, s’avèrent efficaces et populaires dans les systèmes intelligents destinés à évaluer l’esthétique des données visuelles. Toutefois, des informations utiles peuvent ne pas être disponibles en raison du coût élevé de l’annotation manuelle et de la conception par des experts. Dans cet article, nous proposons une nouvelle méthode d’agrégation par multi-patch (MP) pour l’évaluation esthétique des images. Contrairement aux méthodes de pointe qui enrichissent le réseau d’agrégation MP avec divers attributs visuels, nous entraînons notre modèle de manière end-to-end en n’utilisant que des étiquettes esthétiques (c’est-à-dire positivement ou négativement esthétiques). Nous atteignons cet objectif grâce à un mécanisme basé sur l’attention, qui ajuste de manière adaptative les poids de chaque patch au cours de l’entraînement afin d’améliorer l’efficacité d’apprentissage. En outre, nous proposons un ensemble d’objectifs reposant sur trois mécanismes d’attention typiques (moyenne, minimum et adaptatif), et évaluons leur efficacité sur le benchmark Aesthetic Visual Analysis (AVA). Les résultats numériques montrent que notre approche surpasse largement les méthodes existantes. Nous validons également l’efficacité des objectifs basés sur l’attention par des études d’ablation, et apportons des éclairages précieux sur la conception de systèmes d’évaluation esthétique.

Aggrégation multi-patch basée sur l'attention pour l'évaluation esthétique d'images | Articles de recherche récents | HyperAI