HyperAIHyperAI
vor 2 Monaten

A-Lampe: Anpassungsfähiges Layout-bewusstes Multi-Patch Tiefes Faltungsneuronales Netzwerk für die Ästhetische Bewertung von Fotos

Ma, Shuang ; Liu, Jing ; Chen, Chang Wen
A-Lampe: Anpassungsfähiges Layout-bewusstes Multi-Patch Tiefes Faltungsneuronales Netzwerk für die Ästhetische Bewertung von Fotos
Abstract

Tiefe Faltungsneuronale Netze (CNN) haben kürzlich vielversprechende Ergebnisse bei der Ästhetikbewertung erzielt. Allerdings wird die Leistung dieser tiefen CNN-Methoden oft durch die Einschränkung beeinträchtigt, dass das Neuronale Netz nur Eingaben fester Größe verarbeiten kann. Um diesem Anforderung gerecht zu werden, müssen Eingabebilder durch Zuschneiden, Verformen oder Auffüllen transformiert werden, was oft die Bildkomposition ändert, die Bildauflösung reduziert oder zu Bildverzerrungen führt. Dadurch wird die Ästhetik der ursprünglichen Bilder aufgrund potentieller Verluste feiner Details und des gesamten Bildlayouts beeinträchtigt. Solche feinen Details und das gesamte Bildlayout sind jedoch entscheidend für die Bewertung der Ästhetik eines Bildes. In dieser Arbeit stellen wir eine Architektur von adaptiven layoutbasierten Multi-Patch Faltungsneuronalen Netzen (A-Lamp CNN) für die Ästhetikbewertung von Fotos vor. Dieses neuartige Verfahren ist in der Lage, beliebig große Bilder als Eingabe zu akzeptieren und gleichzeitig aus feinen Details und dem gesamten Bildlayout zu lernen. Um das Training auf diesen hybriden Eingaben zu ermöglichen, erweitern wir die Methode durch die Entwicklung einer speziellen Doppelsubnetz-Struktur des neuronalen Netzes, nämlich einem Multi-Patch Subnetz und einem Layout-Aware Subnetz. Wir konstruieren zudem eine Aggregierungsschicht, um die hybriden Merkmale aus diesen beiden Subnetzen effektiv zu kombinieren. Ausführliche Experimente mit dem großen Benchmark-Datensatz für Ästhetikbewertung (AVA) zeigen erhebliche Leistungsverbesserungen im Vergleich zum Stand der Technik bei der Ästhetikbewertung von Fotos.