Können vortrainierte visuelle und sprachliche Modelle visuelle informationssuchende Fragen beantworten?

Vortrainierte visuelle und sprachliche Modelle haben bahnbrechende Leistungen bei bestehenden Aufgaben, die Bilder und Texte betreffen, wie beispielsweise visuelle Fragebeantwortung (Visual Question Answering, VQA), demonstriert. Es bleibt jedoch unklar, ob diese Modelle in der Lage sind, Fragen zu beantworten, die nicht nur visuelle Inhalte abfragen, sondern auch wissensintensiv und informationsbedürftig sind. In dieser Studie stellen wir InfoSeek vor, einen für informationsbedürftige Fragen spezialisierten Datensatz zum visuellen Fragenbeantworten, die nicht allein mit allgemeinem Wissen beantwortet werden können. Anhand von InfoSeek analysieren wir verschiedene vortrainierte Modelle für visuelle Fragebeantwortung und gewinnen Einblicke in deren Eigenschaften. Unsere Ergebnisse zeigen, dass state-of-the-art-Modelle für multimodale Daten (z. B. PaLI-X, BLIP2) Schwierigkeiten haben, informationsbedürftige visuelle Fragen zu beantworten. Eine Nachtrainierung auf dem InfoSeek-Datensatz führt jedoch dazu, dass die Modelle feinkörniges Wissen nutzen, das während des Vortrainings erlernt wurde. Zudem zeigen wir, dass eine präzise Erkennung visueller Entitäten zur Verbesserung der Leistung auf InfoSeek beitragen kann, indem relevante Dokumente abgerufen werden – was ein erhebliches Verbesserungspotenzial aufzeigt.