HyperAIHyperAI
vor 2 Monaten

Einfache Baseline für visuelle Fragebeantwortung

Bolei Zhou; Yuandong Tian; Sainbayar Sukhbaatar; Arthur Szlam; Rob Fergus
Einfache Baseline für visuelle Fragebeantwortung
Abstract

Wir beschreiben eine sehr einfache Bag-of-Words-Baseline für visuelle Fragebeantwortung. Diese Baseline verbindet die Wortmerkmale aus der Frage mit den CNN-Merkmalen aus dem Bild, um die Antwort vorherzusagen. Bei der Auswertung am anspruchsvollen VQA-Datensatz [2] zeigt sie eine vergleichbare Leistung vieler neuer Ansätze, die rekurrente Neuronale Netze verwenden. Um die Stärken und Schwächen des trainierten Modells zu erforschen, stellen wir zudem eine interaktive Web-Demo sowie Open-Source-Code bereit.

Einfache Baseline für visuelle Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI