Few-Shot Multimodale Erklärung für Visual Question Answering
Ein zentrales Ziel der erklärbaren künstlichen Intelligenz (XAI) besteht darin, intelligente Systeme zu entwickeln, die in der Lage sind, realweltbezogene Daten zu verarbeiten und zu erklären, um eine zuverlässige Entscheidungsfindung zu ermöglichen. Kürzliche Studien haben die Bedeutung benutzerfreundlicher und überprüfbarer Erklärungen für die Entwicklung vertrauenswürdiger Systeme im Bereich des visuellen Fragen- und Antwortens (Visual Question Answering, VQA) erkannt. In diesem Artikel wird die erklärbare VQA sowohl aus daten- als auch aus methodischer Perspektive vorangetrieben. Zunächst stellen wir eine neue Standard-Multimodale-Erklärungs-(SME)-Datensammlung und eine neue Few-Shot-Multimodale-Erklärungsaufgabe für VQA (FS-MEVQA) vor, die darauf abzielt, multimodale Erklärungen des zugrundeliegenden Schlussfolgerungsprozesses für die Lösung visueller Fragen mit nur wenigen Trainingsbeispielen zu generieren. Unsere SME-Datensammlung umfasst 1.028.230 Instanzen, bestehend aus Fragen, Bildern, Antworten und multimodalen Erklärungen, und unterstützt die Forschung sowohl im klassischen MEVQA als auch im FS-MEVQA. So weit uns bekannt ist, handelt es sich hierbei um die erste großskalige Datensammlung mit integrierten sprach- und visuellen Erklärungen auf Basis standardisierten Englischs sowie zusätzlicher visueller Grundierungstokens. Zweitens präsentieren wir eine trainingsfreie Methode namens Multimodaler Erklärungs-Agent (MEAgent), die auf einem LLM-Agenten mit multimodalen Open-World-Tools basiert, um Antworten abzuleiten und multimodale Erklärungen für visuelle Fragen zu generieren. Unser MEAgent kann multimodale Erklärungen bereits anhand von lediglich N (=16) Trainingsbeispielen erlernen und nutzt Fähigkeiten im offenen Welt-Kontext, um die FS-MEVQA-Aufgabe auf Testbeispielen durchzuführen. Umfassende experimentelle Ergebnisse, bewertet anhand von Sprachqualitätsmetriken, visueller Erkennungsmetriken und visueller Attribution-Metriken anhand unserer SME-Datensammlung, belegen die Überlegenheit unserer Methode im Bereich FS-MEVQA. Unsere Code- und Datensammlung ist unter https://github.com/LivXue/FS-MEVQA verfügbar.