Command Palette
Search for a command to run...
A-Lamp: Adaptive Layout-Aware Multi-Patch Deep Convolutional Neural Network für die photoästhetische Bewertung
A-Lamp: Adaptive Layout-Aware Multi-Patch Deep Convolutional Neural Network für die photoästhetische Bewertung
Ma Shuang Liu Jing Chen Chang Wen
Zusammenfassung
Tiefgelegte konvolutionelle neuronale Netze (CNN) haben in jüngster Zeit vielversprechende Ergebnisse bei der Bewertung der Ästhetik von Bildern gezeigt. Allerdings leidet die Leistung dieser tiefen CNN-Methoden häufig unter der Einschränkung, dass das neuronale Netzwerk nur Eingabebilder mit fester Größe verarbeiten kann. Um dieser Anforderung gerecht zu werden, müssen Eingabebilder durch Ausschneiden, Verzerrung oder Auffüllen transformiert werden, was häufig die Bildkomposition verändert, die Auflösung verringert oder Verzerrungen verursacht. Dadurch wird die Ästhetik der ursprünglichen Bilder beeinträchtigt, da feine Details und die Gesamtanordnung des Bildes verloren gehen können. Genau diese feinen Details und die globale Bildstruktur sind jedoch entscheidend für die Beurteilung der Ästhetik eines Bildes. In diesem Artikel präsentieren wir eine adaptive, layoutbewusste, mehrfach-patch-basierte konvolutionelle neuronale Netzarchitektur (A-Lamp CNN) für die Bewertung der Bildästhetik. Dieses neue Verfahren kann Bilder beliebiger Größe verarbeiten und gleichzeitig sowohl feine Details als auch die globale Bildstruktur lernen. Um das Training auf solchen hybriden Eingaben zu ermöglichen, erweitern wir die Methode durch die Entwicklung einer speziellen Doppelsubnetz-Struktur, bestehend aus einem Multi-Patch-Subnetz und einem Layout-Aware-Subnetz. Zudem konstruieren wir eine Aggregations-Schicht, um die hybriden Merkmale beider Subnetze effektiv zu kombinieren. Umfangreiche Experimente auf der großen Datenbank für die Ästhetikbewertung (AVA) zeigen eine signifikante Verbesserung gegenüber den derzeit besten Ansätzen in der Bewertung der Bildästhetik.