HyperAIHyperAI
vor 16 Tagen

Aufmerksamkeitsbasierte Multi-Patch-Aggregation für die Bildästhetikbewertung

{Wei-Ming Dong, Bao-Gang Hu, Kekai Sheng, Chongyang Ma, Xing Mei, Feiyue Huang}
Abstract

Aggregationsstrukturen mit expliziten Informationen, wie Bildattributen und Szenensemantik, sind effektiv und verbreitet für intelligente Systeme zur Bewertung der Ästhetik visueller Daten. Allerdings kann nützliche Information aufgrund der hohen Kosten manueller Annotation und Experten-Designs nicht verfügbar sein. In diesem Paper stellen wir eine neuartige Multi-Patch-(MP)-Aggregationsmethode für die Bildästhetikbewertung vor. Im Gegensatz zu aktuellen Ansätzen, die ein MP-Aggregationsnetzwerk durch verschiedene visuelle Attribute erweitern, trainieren wir das Modell ausschließlich end-to-end mit Ästhetiklabels (d. h. ästhetisch positiv oder negativ). Dies erreichen wir durch die Nutzung einer auf Aufmerksamkeit basierenden Mechanik, die die Gewichtung jedes Patch während des Trainingsprozesses adaptiv anpasst, um die Lerneffizienz zu verbessern. Zusätzlich schlagen wir eine Reihe von Zielfunktionen mit drei typischen Aufmerksamkeitsmechanismen (d. h. Durchschnitt, Minimum und adaptiv) vor und evaluieren deren Wirksamkeit auf der Aesthetic Visual Analysis (AVA)-Benchmarks. Zahlenmäßige Ergebnisse zeigen, dass unser Ansatz bestehende Methoden deutlich übertrifft. Wir bestätigen zudem die Wirksamkeit der vorgeschlagenen auf Aufmerksamkeit basierenden Zielfunktionen durch Ablationsstudien und liefern Hinweise für die Gestaltung von Ästhetikbewertungssystemen.

Aufmerksamkeitsbasierte Multi-Patch-Aggregation für die Bildästhetikbewertung | Neueste Forschungsarbeiten | HyperAI