HyperAIHyperAI
vor einem Monat

Neurales Selbstgespräch: Bildverstehen durch kontinuierliches Fragen und Antworten

Yezhou Yang; Yi Li; Cornelia Fermuller; Yiannis Aloimonos
Neurales Selbstgespräch: Bildverstehen durch kontinuierliches Fragen und Antworten
Abstract

In dieser Arbeit betrachten wir das Problem der kontinuierlichen Entdeckung von Bildinhalten durch aktives Stellen von bildbasierten Fragen und anschließendes Beantworten dieser Fragen. Die wesentlichen Komponenten umfassen ein Modul zur Generierung visueller Fragen (Visual Question Generation, VQG) und ein Modul zur Beantwortung visueller Fragen, bei denen Rekurrente Neuronale Netze (Recurrent Neural Networks, RNN) und Faltungsschicht-Neuronale Netze (Convolutional Neural Networks, CNN) eingesetzt werden. Angenommen wird ein Datensatz, der Bilder, Fragen und deren Antworten enthält; beide Module werden gleichzeitig trainiert, wobei der Unterschied darin besteht, dass VQG die Bilder als Eingabe verwendet und die entsprechenden Fragen als Ausgabe erzeugt, während VQA Bilder und Fragen als Eingabe verwendet und die entsprechenden Antworten als Ausgabe erzeugt. Wir bewerten den Selbstgesprächsprozess subjektiv mit Hilfe von Amazon Mechanical Turk, was die Effektivität des vorgeschlagenen Verfahrens zeigt.