Aufmerksamkeitsbasierte Multi-Patch-Aggregation für die Bildästhetikbewertung
{Wei-Ming Dong Bao-Gang Hu Kekai Sheng Chongyang Ma Xing Mei Feiyue Huang}
Abstract
Aggregationsstrukturen mit expliziten Informationen, wie Bildattributen und Szenensemantik, sind effektiv und verbreitet für intelligente Systeme zur Bewertung der Ästhetik visueller Daten. Allerdings kann nützliche Information aufgrund der hohen Kosten manueller Annotation und Experten-Designs nicht verfügbar sein. In diesem Paper stellen wir eine neuartige Multi-Patch-(MP)-Aggregationsmethode für die Bildästhetikbewertung vor. Im Gegensatz zu aktuellen Ansätzen, die ein MP-Aggregationsnetzwerk durch verschiedene visuelle Attribute erweitern, trainieren wir das Modell ausschließlich end-to-end mit Ästhetiklabels (d. h. ästhetisch positiv oder negativ). Dies erreichen wir durch die Nutzung einer auf Aufmerksamkeit basierenden Mechanik, die die Gewichtung jedes Patch während des Trainingsprozesses adaptiv anpasst, um die Lerneffizienz zu verbessern. Zusätzlich schlagen wir eine Reihe von Zielfunktionen mit drei typischen Aufmerksamkeitsmechanismen (d. h. Durchschnitt, Minimum und adaptiv) vor und evaluieren deren Wirksamkeit auf der Aesthetic Visual Analysis (AVA)-Benchmarks. Zahlenmäßige Ergebnisse zeigen, dass unser Ansatz bestehende Methoden deutlich übertrifft. Wir bestätigen zudem die Wirksamkeit der vorgeschlagenen auf Aufmerksamkeit basierenden Zielfunktionen durch Ablationsstudien und liefern Hinweise für die Gestaltung von Ästhetikbewertungssystemen.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| aesthetics-quality-assessment-on-ava | MP_adam | Accuracy: 83.0% |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.