CLEVR-Ref+: Diagnostik visueller Schlussfolgerung mit referierenden Ausdrücken

Die Objektidentifikation und die Segmentierung von referenzierten Bildern sind wichtige Aufgaben, die eine gemeinsame Verarbeitung visueller Informationen und natürlicher Sprache erfordern. Es gibt jedoch Hinweise darauf, dass aktuelle Benchmark-Datensätze von Verzerrungen betroffen sind und dass moderne Spitzenmodelle ihren Zwischenverarbeitungsprozess nicht leicht bewerten lassen können. Um diese Probleme zu lösen und ähnliche Bemühungen im Bereich der visuellen Fragebeantwortung zu ergänzen, haben wir CLEVR-Ref+ erstellt, einen synthetischen Diagnose-Datensatz für die Verarbeitung referenzierender Ausdrücke. Die genauen Positionen und Attribute der Objekte sind leicht zugänglich, und die referenzierenden Ausdrücke werden automatisch mit funktionalen Programmen verknüpft. Die synthetische Natur ermöglicht es, den Datensatzverzerrungen durch eine geeignete Stichprobenstrategie zu kontrollieren, während modulare Programme Zwischenergebnisse des Schließvorgangs ohne menschliche Annotatoren liefern.Neben der Bewertung verschiedener Spitzenmodelle auf CLEVR-Ref+ schlagen wir IEP-Ref vor, einen Modulnetzansatz, der auf unserem Datensatz deutlich bessere Ergebnisse erzielt als andere Modelle. Insbesondere präsentieren wir zwei interessante und wichtige Erkenntnisse mithilfe von IEP-Ref: (1) Der Modul, der trainiert wurde, um Merkmalskarten in Segmentationsmasken zu transformieren, kann an jeden Zwischenmodul angehängt werden, um den gesamten Schließvorgang Schritt für Schritt zu enthüllen; (2) Selbst wenn alle Trainingsdaten mindestens ein referenziertes Objekt enthalten, kann IEP-Ref korrekt voraussagen, dass kein Vordergrund vorhanden ist, wenn ihm falsche Prämissen mit referenzierenden Ausdrücken präsentiert werden. Nach bestem Wissen ist dies der erste direkte und quantitative Beweis dafür, dass neuronale Module sich so verhalten, wie sie es sollen.