REX: Begründungsbewusste und Fundierte Erklärung

Effektivität und Interpretierbarkeit sind zwei wesentliche Eigenschaften für vertrauenswürdige KI-Systeme. Die meisten aktuellen Studien im Bereich visuelles Schließen konzentrieren sich auf die Verbesserung der Genauigkeit vorhergesagter Antworten, während weniger Aufmerksamkeit den Erklärungen der Entscheidungsgründe gewidmet wird. Als Ergebnis nutzen diese Systeme häufig spuriose Verzerrungen anstelle einer tatsächlichen Analyse der visuellen und textuellen Daten aus und haben noch nicht die Fähigkeit entwickelt, ihre Entscheidungsfindung durch Berücksichtigung von Schlüsselinformationen aus beiden Modalitäten zu erklären. In dieser Arbeit wird das Ziel verfolgt, diese Lücke aus drei verschiedenen Perspektiven zu schließen: Erstens definieren wir eine neue Art von multimodalen Erklärungen, die die Entscheidungen durch schrittweises Durchlaufen des Schließvorgangs und Ankerlegung von Schlüsselbegriffen in den Bildern erläutern. Wir entwickeln ein funktionales Programm zur sequentiellen Ausführung verschiedener Schritte des Schließvorgangs und erstellen einen neuen Datensatz mit 1.040.830 multimodalen Erklärungen. Zweitens identifizieren wir das dringende Bedürfnis, wichtige Komponenten über die visuelle und textuelle Modalität hinweg eng miteinander zu verknüpfen, um die Entscheidungsgründe zu erklären, und schlagen eine neuartige Methode zur Generierung von Erklärungen vor, die die paarweise Korrespondenz zwischen Wörtern und Regionen von Interesse explizit modelliert. Dies verbessert die visuelle Ankerlegungsfähigkeit erheblich und führt zu erhöhter Interpretierbarkeit und besseren Schließleistungen. Drittens führen wir umfangreiche Analysen durch, um die Effektivität unserer Erklärungen unter verschiedenen Einstellungen, einschließlich multitauglichen Lernens und Transferlernens, zu untersuchen. Unser Code und unsere Daten sind unter https://github.com/szzexpoi/rex verfügbar.