HyperAIHyperAI
vor einem Monat

Modell- und Datenuntersuchungen für Bildfragenbeantwortung

Mengye Ren; Ryan Kiros; Richard Zemel
Modell- und Datenuntersuchungen für Bildfragenbeantwortung
Abstract

Diese Arbeit befasst sich mit dem Problem des bildbasierten Frage-Antwortens (QA) durch die Einführung neuer Modelle und Datensätze. In unserem Beitrag schlagen wir vor, neuronale Netze und visuelle semantische Einbettungen zu verwenden, um Antworten auf einfache Fragen zu Bildern vorherzusagen, ohne dabei Zwischenschritte wie Objekterkennung und Bildsegmentierung zu nutzen. Unser Modell erzielt ein 1,8-fach besseres Ergebnis als das einzige bisher veröffentlichte Resultat auf einem bestehenden Bild-QA-Datensatz. Zudem stellen wir einen Algorithmus zur Fragegenerierung vor, der weit verbreitete Bildbeschreibungen in eine QA-Form umwandelt. Mit diesem Algorithmus haben wir einen Datensatz von einer Größenordnung größer erstellt, bei dem die Antworten gleichmäßiger verteilt sind. Eine Reihe von Baseline-Ergebnissen für diesen neuen Datensatz wird ebenfalls präsentiert.