vor 2 Monaten
Einfache Baseline für visuelle Fragebeantwortung
Bolei Zhou; Yuandong Tian; Sainbayar Sukhbaatar; Arthur Szlam; Rob Fergus

Abstract
Wir beschreiben eine sehr einfache Bag-of-Words-Baseline für visuelle Fragebeantwortung. Diese Baseline verbindet die Wortmerkmale aus der Frage mit den CNN-Merkmalen aus dem Bild, um die Antwort vorherzusagen. Bei der Auswertung am anspruchsvollen VQA-Datensatz [2] zeigt sie eine vergleichbare Leistung vieler neuer Ansätze, die rekurrente Neuronale Netze verwenden. Um die Stärken und Schwächen des trainierten Modells zu erforschen, stellen wir zudem eine interaktive Web-Demo sowie Open-Source-Code bereit.