HyperAIHyperAI

Command Palette

Search for a command to run...

Können vortrainierte visuelle und sprachliche Modelle visuelle informationssuchende Fragen beantworten?

Yang Chen Hexiang Hu Yi Luan Haitian Sun Soravit Changpinyo Alan Ritter Ming-Wei Chang

Zusammenfassung

Vortrainierte visuelle und sprachliche Modelle haben bahnbrechende Leistungen bei bestehenden Aufgaben, die Bilder und Texte betreffen, wie beispielsweise visuelle Fragebeantwortung (Visual Question Answering, VQA), demonstriert. Es bleibt jedoch unklar, ob diese Modelle in der Lage sind, Fragen zu beantworten, die nicht nur visuelle Inhalte abfragen, sondern auch wissensintensiv und informationsbedürftig sind. In dieser Studie stellen wir InfoSeek vor, einen für informationsbedürftige Fragen spezialisierten Datensatz zum visuellen Fragenbeantworten, die nicht allein mit allgemeinem Wissen beantwortet werden können. Anhand von InfoSeek analysieren wir verschiedene vortrainierte Modelle für visuelle Fragebeantwortung und gewinnen Einblicke in deren Eigenschaften. Unsere Ergebnisse zeigen, dass state-of-the-art-Modelle für multimodale Daten (z. B. PaLI-X, BLIP2) Schwierigkeiten haben, informationsbedürftige visuelle Fragen zu beantworten. Eine Nachtrainierung auf dem InfoSeek-Datensatz führt jedoch dazu, dass die Modelle feinkörniges Wissen nutzen, das während des Vortrainings erlernt wurde. Zudem zeigen wir, dass eine präzise Erkennung visueller Entitäten zur Verbesserung der Leistung auf InfoSeek beitragen kann, indem relevante Dokumente abgerufen werden – was ein erhebliches Verbesserungspotenzial aufzeigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp