Bildunterschrift und visuelle Fragebeantwortung basierend auf Attributen und externem Wissen

Viel Fortschritt bei Vision-to-Language-Problemen wurde in letzter Zeit durch eine Kombination von Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs) und Rekurrenten Neuronalen Netzen (Recurrent Neural Networks, RNNs) erzielt. Dieser Ansatz repräsentiert hochstufige semantische Konzepte nicht explizit, sondern strebt vielmehr danach, direkt von Bildmerkmalen zu Text überzugehen. In dieser Arbeit schlagen wir zunächst eine Methode vor, um hochstufige Konzepte in den erfolgreichen CNN-RNN-Ansatz zu integrieren, und zeigen, dass dies einen signifikanten Fortschritt im Vergleich zum aktuellen Stand der Technik sowohl beim Bildbeschreibungsgenerator als auch bei der visuellen Fragebeantwortung darstellt. Wir demonstrieren ferner, dass das gleiche Verfahren verwendet werden kann, um externes Wissen zu integrieren, was für die Beantwortung hochstufiger visueller Fragen von entscheidender Bedeutung ist. Insbesondere entwerfen wir ein Modell zur visuellen Fragebeantwortung, das eine interne Darstellung des Inhalts eines Bildes mit Informationen aus einer allgemeinen Wissensdatenbank kombiniert, um eine breite Palette von bildbasierten Fragen zu beantworten. Es ermöglicht insbesondere Fragen zum Inhalt eines Bildes, selbst wenn das Bild selbst keine vollständige Antwort enthält. Unser endgültiges Modell erzielt die besten bisher gemeldeten Ergebnisse sowohl beim Bildbeschreibungsgenerator als auch bei der visuellen Fragebeantwortung auf mehreren Benchmark-Datensätzen.