vor 2 Monaten

Programme für visuelle Schlussfolgerung ableiten und ausführen

Justin Johnson; Bharath Hariharan; Laurens van der Maaten; Judy Hoffman; Li Fei-Fei; C. Lawrence Zitnick; Ross Girshick

Abstract

Bestehende Methoden für visuelle Inferenz versuchen, Eingaben direkt auf Ausgaben abzubilden, indem sie Black-Box-Architekturen verwenden, ohne die zugrunde liegenden Inferenzprozesse explizit zu modellieren. Als Ergebnis lernen diese Black-Box-Modelle häufig, Verzerrungen in den Daten auszunutzen, anstatt visuelle Inferenz durchzuführen. Inspiriert von Modulnetzen schlägt dieser Artikel ein Modell für visuelle Inferenz vor, das aus einem Programmgenerator besteht, der eine explizite Darstellung des zu durchführenden Inferenzprozesses erstellt, und einer Ausführungsengine, die das resultierende Programm ausführt, um eine Antwort zu generieren. Sowohl der Programmgenerator als auch die Ausführungsengine werden durch neuronale Netze implementiert und mit einer Kombination aus Backpropagation und REINFORCE trainiert. Unter Verwendung des CLEVR-Benchmarks für visuelle Inferenz zeigen wir, dass unser Modell signifikant bessere Ergebnisse als starke Baseline-Modelle erzielt und sich in verschiedenen Szenarien besser verallgemeinert.