Multimodales Residuenlernen für visuelle QA

Tiefe neuronale Netze setzen ihre Fortschritte bei der Bilderkennung mit verschiedenen Methoden fort. Allerdings bleiben Anwendungen dieser Methoden auf multimodale Daten begrenzt. In diesem Beitrag stellen wir Multimodale Residuen-Netze (MRN) vor, die das multimodale residuale Lernen für visuelle Fragebeantwortung erweitern und die Idee des tiefen residualen Lernens weiterentwickeln. Im Gegensatz zum tiefen residualen Lernen lernt MRN effektiv eine gemeinsame Darstellung aus visuellen und sprachlichen Informationen. Das Kernkonzept besteht darin, elementweise Multiplikation für die gemeinsamen residualen Abbildungen zu verwenden, wobei die residuale Lernmethoden von Aufmerksamkeitsmodellen in jüngsten Studien genutzt werden. Auf Basis unserer Untersuchungen werden verschiedene alternative Modelle, die durch Multimodalität eingeführt werden, untersucht. Wir erzielen Stand-der-Technik-Ergebnisse im Visual QA-Datensatz sowohl für offene als auch für multiple-Choice-Aufgaben. Darüber hinaus führen wir eine neuartige Methode ein, um den Aufmerksamkeits-Effekt der gemeinsamen Darstellungen für jeden Lernblock mithilfe des Backpropagation-Algorithmus zu visualisieren, obwohl die visuellen Merkmale ohne räumliche Information kollabiert sind.