HyperAIHyperAI
vor 15 Tagen

CLEVR-X: Ein visuelles Schlussfolgerungs-Datensatz für natürlichsprachliche Erklärungen

Leonard Salewski, A. Sophia Koepke, Hendrik P. A. Lensch, Zeynep Akata
CLEVR-X: Ein visuelles Schlussfolgerungs-Datensatz für natürlichsprachliche Erklärungen
Abstract

Die Bereitstellung von Erklärungen im Kontext des Visual Question Answering (VQA) stellt ein grundlegendes Problem im Bereich des maschinellen Lernens dar. Um detaillierte Einblicke in den Prozess der Generierung natürlicher Spracherklärungen für VQA zu gewinnen, stellen wir die großskalige CLEVR-X-Datenbank vor, die die CLEVR-Datenbank durch natürliche Spracherklärungen erweitert. Für jedes Bild-Frage-Paar in der CLEVR-Datenbank enthält CLEVR-X mehrere strukturierte textuelle Erklärungen, die aus den ursprünglichen Szenengraphen abgeleitet wurden. Aufgrund ihrer Konstruktion sind die CLEVR-X-Erklärungen korrekt und beschreiben die notwendigen Schlussfolgerungen sowie visuellen Informationen, um eine gegebene Frage zu beantworten. Wir führten eine Benutzerstudie durch, um zu bestätigen, dass die Ground-Truth-Erklärungen in unserer vorgeschlagenen Datenbank tatsächlich vollständig und relevant sind. Wir präsentieren Baseline-Ergebnisse zur Generierung natürlicher Spracherklärungen im Kontext von VQA mithilfe zweier state-of-the-art-Frameworks auf der CLEVR-X-Datenbank. Zudem geben wir eine detaillierte Analyse der Qualität der Erklärungsgenerierung für verschiedene Frage- und Antworttypen. Darüber hinaus untersuchen wir den Einfluss verschiedener Anzahlen von Ground-Truth-Erklärungen auf die Konvergenz von Metriken zur natürlichen Sprachgenerierung (NLG). Die CLEVR-X-Datenbank ist öffentlich unter \url{https://explainableml.github.io/CLEVR-X/} verfügbar.

CLEVR-X: Ein visuelles Schlussfolgerungs-Datensatz für natürlichsprachliche Erklärungen | Neueste Forschungsarbeiten | HyperAI