HyperAIHyperAI
vor 2 Monaten

Mehr Aufmerksamkeit für Salienz: Bildunterschriften mit Salienz- und Kontextaufmerksamkeit

Marcella Cornia; Lorenzo Baraldi; Giuseppe Serra; Rita Cucchiara
Mehr Aufmerksamkeit für Salienz: Bildunterschriften mit Salienz- und Kontextaufmerksamkeit
Abstract

Das automatische Beschreiben von Bildern (Image Captioning) hat in letzter Zeit dank der beeindruckenden Leistungen, die durch tiefgreifende Architekturen zur Bildbeschreibung erzielt wurden, viel Aufmerksamkeit erhalten. Diese Architekturen kombinieren Faltungsneuronale Netze (Convolutional Neural Networks), um Bildrepräsentationen zu extrahieren, und rekurrente Neuronale Netze (Recurrent Neural Networks), um die entsprechenden Beschreibungen zu generieren. Gleichzeitig wurde ein erheblicher Forschungsaufwand in die Entwicklung von Salienzvorhersagemodellen investiert, die menschliche Blickfixierungen vorhersagen können. Obwohl Salienzinformationen nützlich sein könnten, um eine Bildbeschreibungsarchitektur zu steuern, indem sie Hinweise darauf geben, was auffällig ist und was nicht, ringt die Forschung noch damit, diese beiden Techniken zusammenzubringen. In dieser Arbeit schlagen wir einen Ansatz für das automatische Beschreiben von Bildern vor, bei dem ein generatives rekurrentes neuronales Netzwerk sich während der Generierung der Beschreibung auf verschiedene Teile des Eingabebildes konzentrieren kann. Dies geschieht durch die Nutzung der Bedingungen, die ein Salienzvorhersagemodell über auffällige und kontextuelle Bereiche des Bildes liefert. Durch umfangreiche quantitative und qualitative Experimente auf großen Datensätzen zeigen wir, dass unser Modell bessere Leistungen als Baseline-Modelle mit und ohne Salienz sowie gegenüber verschiedenen aktuellen Ansätzen zur Kombination von Salienz und Bildbeschreibung erzielt.