Neuronale Modulnetze

Visuelles Fragenbeantworten ist grundlegend kompositionell in der Natur – eine Frage wie „Wo befindet sich der Hund?“ teilt sich Strukturen mit Fragen wie „Welche Farbe hat der Hund?“ und „Wo befindet sich die Katze?“. Dieses Papier strebt an, gleichzeitig die repräsentative Kapazität tiefer Netzwerke und die kompositionelle linguistische Struktur von Fragen zu nutzen. Wir beschreiben ein Verfahren zur Konstruktion und dem Lernen von neuronalen Modulnetzwerken (neural module networks), bei denen Sammlungen gemeinsam trainierter neuronalen „Module“ zu tiefen Netzwerken für die Fragenbeantwortung zusammengesetzt werden. Unser Ansatz zerlegt Fragen in ihre linguistischen Teilstrukturen und verwendet diese Strukturen, um modulare Netzwerke dynamisch zu instanziieren (mit wiederverwendbaren Komponenten zur Erkennung von Hunden, Klassifikation von Farben usw.). Die resultierenden zusammengesetzten Netzwerke werden gemeinsam trainiert. Wir evaluieren unseren Ansatz anhand zweier anspruchsvoller Datensätze für visuelle Fragenbeantwortung und erzielen dabei den Stand der Technik sowohl im VQA-Datensatz natürlicher Bilder als auch in einem neuen Datensatz komplexer Fragen über abstrakte Formen.