Dynamische Speichernetze für visuelle und textbasierte Fragebeantwortung

Neuronale Netzarchitekturen mit Speicher- und Aufmerksamkeitsmechanismen zeigen bestimmte Schlussfolgerungsfähigkeiten, die für die Fragebeantwortung erforderlich sind. Eine solche Architektur, das dynamische Speichernetzwerk (Dynamic Memory Network, DMN), erzielte hohe Genauigkeit bei einer Vielzahl von Sprachaufgaben. Es wurde jedoch nicht gezeigt, ob die Architektur starke Ergebnisse für die Fragebeantwortung erzielt, wenn unterstützende Fakten während des Trainings nicht markiert werden, oder ob sie auf andere Modalitäten wie Bilder angewendet werden kann. Basierend auf einer Analyse des DMN schlagen wir mehrere Verbesserungen für seine Speicher- und Eingabemodule vor. Zusammen mit diesen Änderungen führen wir ein neues Eingabemodul für Bilder ein, um visuelle Fragen beantworten zu können. Unser neues DMN+ Modell verbessert den Stand der Technik sowohl im Visual Question Answering Datensatz als auch im bAbI-10k Text-Fragebeantwortungsdatensatz ohne Unterstützung durch markierte Fakten.