vor 6 Monaten

Zusammenfassung

Diese Arbeit befasst sich mit dem Problem des knowledge-basierten visuellen Fragenbeantwortens (KB-VQA). In jüngsten Arbeiten wurde die Bedeutung der Einbeziehung sowohl expliziter (durch externe Datenbanken) als auch impliziter (durch große Sprachmodelle, LLMs) Wissensquellen betont, um Fragen, die externe Kenntnisse erfordern, effektiv zu beantworten. Ein häufiger Nachteil solcher Ansätze liegt in ihren relativ komplexen Pipelines und der starken Abhängigkeit von der Nutzung der GPT-3-API. Unser zentrales Beitrag in dieser Arbeit besteht darin, eine wesentlich einfachere und leicht reproduzierbare Pipeline vorzuschlagen, die im Wesentlichen auf effizientem In-Context-Lernen basiert, indem LLaMA (Version 1 und 2) mittels frageninformierter Bildunterschriften als Kontextinformationen promptet wird. Im Gegensatz zu jüngeren Ansätzen ist unsere Methode trainingsfrei, erfordert keinen Zugriff auf externe Datenbanken oder APIs und erreicht gleichwohl eine state-of-the-art Genauigkeit auf den Datensätzen OK-VQA und A-OK-VQA. Schließlich führen wir mehrere Ablationstudien durch, um wichtige Aspekte unserer Methode besser zu verstehen. Unser Code ist öffentlich verfügbar unter https://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQA

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Alexandros Xenos Themos Stafylakis Ioannis Patras Georgios Tzimiropoulos

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Alexandros Xenos Themos Stafylakis Ioannis Patras Georgios Tzimiropoulos

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Ein einfacher Baseline für knowledgebasierte visuelle Fragebeantwortung

Alexandros Xenos Themos Stafylakis Ioannis Patras Georgios Tzimiropoulos

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein einfacher Baseline für knowledgebasierte visuelle Fragebeantwortung

Alexandros Xenos Themos Stafylakis Ioannis Patras Georgios Tzimiropoulos

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein einfacher Baseline für knowledgebasierte visuelle Fragebeantwortung

Alexandros Xenos Themos Stafylakis Ioannis Patras Georgios Tzimiropoulos

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters