Aufmerksamkeitsbasierte Multi-Patch-Aggregation für die Bildästhetikbewertung
Aggregationsstrukturen mit expliziten Informationen, wie Bildattributen und Szenensemantik, sind effektiv und verbreitet für intelligente Systeme zur Bewertung der Ästhetik visueller Daten. Allerdings kann nützliche Information aufgrund der hohen Kosten manueller Annotation und Experten-Designs nicht verfügbar sein. In diesem Paper stellen wir eine neuartige Multi-Patch-(MP)-Aggregationsmethode für die Bildästhetikbewertung vor. Im Gegensatz zu aktuellen Ansätzen, die ein MP-Aggregationsnetzwerk durch verschiedene visuelle Attribute erweitern, trainieren wir das Modell ausschließlich end-to-end mit Ästhetiklabels (d. h. ästhetisch positiv oder negativ). Dies erreichen wir durch die Nutzung einer auf Aufmerksamkeit basierenden Mechanik, die die Gewichtung jedes Patch während des Trainingsprozesses adaptiv anpasst, um die Lerneffizienz zu verbessern. Zusätzlich schlagen wir eine Reihe von Zielfunktionen mit drei typischen Aufmerksamkeitsmechanismen (d. h. Durchschnitt, Minimum und adaptiv) vor und evaluieren deren Wirksamkeit auf der Aesthetic Visual Analysis (AVA)-Benchmarks. Zahlenmäßige Ergebnisse zeigen, dass unser Ansatz bestehende Methoden deutlich übertrifft. Wir bestätigen zudem die Wirksamkeit der vorgeschlagenen auf Aufmerksamkeit basierenden Zielfunktionen durch Ablationsstudien und liefern Hinweise für die Gestaltung von Ästhetikbewertungssystemen.