Bildfragebeantwortung mit Convolutional Neural Network und dynamischer Parameterprognose

Wir adressieren das Problem des Bild-Fragebeantwortens (ImageQA), indem wir ein Faltungsneuronales Netzwerk (CNN) mit einer dynamischen Parameter-Schicht lernen, deren Gewichte sich anhand der Fragen anpassen. Für die adaptive Parameter-Vorhersage verwenden wir ein separates Parameter-Vorhersagenetzwerk, das aus einer Gatter-Rekurrenten-Einheit (GRU) besteht, die die Frage als Eingabe erhält, und einem vollständig verbundenen Layer, der eine Reihe von Kandidaten-Gewichten als Ausgabe generiert. Allerdings ist es herausfordernd, ein Parameter-Vorhersagenetzwerk für eine große Anzahl von Parametern im vollständig verbundenen dynamischen Parameter-Layer des CNNs zu konstruieren. Wir reduzieren die Komplexität dieses Problems durch die Einbindung einer Hashing-Technik, bei der die Kandidaten-Gewichte, die vom Parameter-Vorhersagenetzwerk bereitgestellt werden, mithilfe einer vordefinierten Hashfunktion ausgewählt werden, um einzelne Gewichte in der dynamischen Parameter-Schicht zu bestimmen. Das vorgeschlagene Netzwerk – ein gemeinsames Netzwerk aus dem CNN für ImageQA und dem Parameter-Vorhersagenetzwerk – wird durch Backpropagation von Anfang bis Ende trainiert, wobei seine Gewichte mit einem vorab trainierten CNN und GRU initialisiert werden. Der vorgeschlagene Algorithmus zeigt den Stand der Technik auf allen verfügbaren öffentlichen ImageQA-Benchmarks auf.