Rekurrente Antworteinheiten mit gemeinsamer Verlustminimierung für VQA trainieren

Wir schlagen einen neuen Algorithmus für visuelle Fragebeantwortung vor, der auf einem rekurrenten tiefen neuronalen Netzwerk basiert. In diesem Netzwerk entspricht jedes Modul einer vollständigen Antworteinheit mit eigenem Aufmerksamkeitsmechanismus. Das Netzwerk wird durch die Minimierung des Verlusts optimiert, der aus allen Einheiten aggregiert wird. Diese Einheiten teilen sich die Modellparameter, erhalten jedoch unterschiedliche Informationen zur Berechnung der Aufmerksamkeitswahrscheinlichkeit. Für das Training fokussiert sich unser Modell auf einen Bereich innerhalb der Bildmerkmalskarte, aktualisiert seinen Speicher basierend auf der Frage und dem fokussierten Bildmerkmal und beantwortet die Frage basierend auf seinem Speicherzustand. Dieser Prozess wird bei jedem Schritt durchgeführt, um den Verlust zu berechnen.Die Motivation für diesen Ansatz liegt in unserer Beobachtung, dass mehrstufige Inferenzschritte oft erforderlich sind, um Fragen zu beantworten, während jede Problemstellung eine einzigartige und wünschenswerte Anzahl von Schritten haben kann, die in der Praxis schwer zu identifizieren ist. Daher lassen wir immer die erste Einheit im Netzwerk Probleme lösen, aber es ist ihr erlaubt, Wissen von den übrigen Einheiten durch Rückpropagation zu lernen, es sei denn, dies verschlechtert das Modell. Um diese Idee umzusetzen, stoppen wir das Training jeder Einheit frühzeitig, sobald sie beginnt zu überanpassen (overfit). Es ist zu beachten, dass komplexere Modelle neigen dazu, bei einfachen Fragen schneller überanzupassen. Daher wird die letzte Antworteinheit im entfalteten rekurrenten Neuronalen Netzwerk typischerweise als Erste eliminiert (gekillt), während die erste Einheit am längsten bestehen bleibt.Für eine neue Frage machen wir eine Einstufungsvorhersage unter Verwendung des geteilten Modells. Diese Strategie funktioniert besser als andere Optionen innerhalb unseres Frameworks, da das ausgewählte Modell effektiv von allen Einheiten trainiert wird ohne Überanpassung (overfitting). Der vorgeschlagene Algorithmus übertrifft andere mehrstufige Aufmerksamkeitsbasierende Ansätze bei der Verwendung einer Einstufungsvorhersage im VQA-Datensatz.