HyperAIHyperAI

Command Palette

Search for a command to run...

Treue multimodale Erklärung für visuelle Fragebeantwortung

Jialin Wu Raymond J. Mooney

Zusammenfassung

Die Fähigkeit von KI-Systemen, ihre Begründungen zu erklären, ist entscheidend für ihre Nutzbarkeit und Verlässlichkeit. Tiefenschichtneuronale Netze haben erhebliche Fortschritte bei vielen anspruchsvollen Aufgaben wie der visuellen Fragebeantwortung (VQA) ermöglicht. Dennoch sind die meisten dieser Systeme undurchsichtige Black-Boxes mit begrenzter Erklärungsfähigkeit. In dieser Arbeit wird ein neuer Ansatz vorgestellt, um ein hochleistungsfähiges VQA-System zu entwickeln, das seine Antworten durch integrierte textuelle und visuelle Erklärungen aufklären kann. Diese Erklärungen spiegeln wichtige Aspekte der zugrunde liegenden Begründung wahrheitsgemäß wider und berücksichtigen den Stil verständlicher menschlicher Erklärungen. Eine umfangreiche experimentelle Auswertung zeigt die Vorteile dieses Ansatzes im Vergleich zu konkurrierenden Methoden sowohl anhand automatisierter Evaluationsmetriken als auch menschlicher Evaluationsmetriken.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Treue multimodale Erklärung für visuelle Fragebeantwortung | Paper | HyperAI