vor 17 Tagen

Interpretierbares visuelles Reasoning über induzierten symbolischen Raum

Zhonghao Wang, Kai Wang, Mo Yu, Jinjun Xiong, Wen-mei Hwu, Mark Hasegawa-Johnson, Humphrey Shi

Abstract

Wir untersuchen das Problem der Konzeptinduktion im visuellen Schlussfolgern, d. h. die Identifizierung von Konzepten und ihrer hierarchischen Beziehungen aus Frage-Antwort-Paaren, die mit Bildern assoziiert sind; und erreichen ein interpretierbares Modell, indem wir auf dem induzierten symbolischen Konzeptraum arbeiten. Dazu entwerfen wir zunächst einen neuen Ansatz namens object-centric compositional attention model (OCCAM), um die visuelle Schlussfolgerungsaufgabe mit objektbasierten visuellen Merkmalen durchzuführen. Anschließend entwickeln wir eine Methode zur Induktion von Objekt- und Beziehungs-Konzepten, die auf Hinweisen aus den Aufmerksamkeitsmustern zwischen den visuellen Merkmalen von Objekten und den Fragenwörtern basiert. Schließlich erreichen wir ein höheres Maß an Interpretierbarkeit, indem wir OCCAM auf Objekte anwenden, die im induzierten symbolischen Konzeptraum repräsentiert sind. Durch die Modellarchitektur lässt sich dieser Ansatz leicht anpassen: Zunächst werden die Konzepte von Objekten und Beziehungen vorhergesagt, anschließend werden die vorhergesagten Konzepte in den visuellen Merkmalsraum zurückprojiziert, sodass der kompositionelle Schlussfolgerungsmodul normal arbeiten kann. Experimente auf den Datensätzen CLEVR und GQA zeigen: 1) Unser OCCAM erreicht eine neue State-of-the-Art-Leistung ohne menschliche Annotationen funktionaler Programme; 2) Die induzierten Konzepte sind sowohl genau als auch ausreichend, da OCCAM eine vergleichbare Leistung erzielt, unabhängig davon, ob die Objekte in visuellen Merkmalen oder im induzierten symbolischen Konzeptraum repräsentiert sind.