Treue multimodale Erklärung für visuelle Fragebeantwortung

Die Fähigkeit von KI-Systemen, ihre Begründungen zu erklären, ist entscheidend für ihre Nutzbarkeit und Verlässlichkeit. Tiefenschichtneuronale Netze haben erhebliche Fortschritte bei vielen anspruchsvollen Aufgaben wie der visuellen Fragebeantwortung (VQA) ermöglicht. Dennoch sind die meisten dieser Systeme undurchsichtige Black-Boxes mit begrenzter Erklärungsfähigkeit. In dieser Arbeit wird ein neuer Ansatz vorgestellt, um ein hochleistungsfähiges VQA-System zu entwickeln, das seine Antworten durch integrierte textuelle und visuelle Erklärungen aufklären kann. Diese Erklärungen spiegeln wichtige Aspekte der zugrunde liegenden Begründung wahrheitsgemäß wider und berücksichtigen den Stil verständlicher menschlicher Erklärungen. Eine umfangreiche experimentelle Auswertung zeigt die Vorteile dieses Ansatzes im Vergleich zu konkurrierenden Methoden sowohl anhand automatisierter Evaluationsmetriken als auch menschlicher Evaluationsmetriken.