NeuSyRE: Neuro-symbolisches Framework für visuelles Verständnis und Schlussfolgern basierend auf Szenengraphen-Erweiterung
Neuro-symbolische hybride Ansätze sind unvermeidlich für eine nahtlose hochwertige Verständnis- und Schlussfolgerungsfähigkeit hinsichtlich visueller Szenen. Die Generierung von Szenengraphen (Scene Graph Generation, SGG) ist ein symbolischer Ansatz zur Darstellung von Bildinhalten, der auf tiefen neuronalen Netzen (DNN) basiert und darauf abzielt, Objekte, deren Attribute sowie paarweise visuelle Beziehungen in Bildern vorherzusagen, um Szenengraphen zu erstellen. Diese Szenengraphen dienen anschließend als Grundlage für nachgeschaltete visuelle Schlussfolgerungsprozesse. Die in der SGG üblicherweise verwendeten crowdsourced Trainingsdatensätze weisen eine starke Ungleichverteilung auf, was zu verzerrten SGG-Ergebnissen führt. Die enorme Anzahl möglicher Tripel macht es zudem schwierig, ausreichend Trainingsbeispiele für jedes visuelle Konzept oder jede Beziehung zu sammeln. Um diese Herausforderungen zu bewältigen, schlagen wir vor, den typischen datengetriebenen Ansatz der SGG durch den Einsatz allgemeiner Sachkenntnis zu erweitern, um die Ausdruckskraft und Autonomie des visuellen Verständnisses und der Schlussfolgerung zu verbessern. Wir präsentieren einen lose gekoppelten neuro-symbolischen Rahmen für visuelles Verständnis und Schlussfolgerung, der eine DNN-basierte Pipeline zur Objekterkennung und eine multimodale Vorhersage paarweiser Beziehungen für die Szenengraphenerzeugung nutzt und gleichzeitig allgemeine Sachkenntnis aus heterogenen Wissensgraphen zur Bereicherung der Szenengraphen einsetzt, um die nachgeschaltete Schlussfolgerung zu verbessern. Eine umfassende Evaluation wird auf mehreren Standarddatensätzen durchgeführt, darunter Visual Genome und Microsoft COCO, wobei der vorgeschlagene Ansatz sowohl hinsichtlich der Beziehungs-Erkennung (Recall@K und mittleres Recall@K) als auch hinsichtlich der Szenengraph-basierten Bildbeschreibung (SPICE und CIDEr) die derzeit besten SGG-Methoden und Szenengraph-basierten Bildbeschreibungsmethoden übertrifft, wobei die BLEU-, ROGUE- und METEOR-Scores vergleichbar bleiben. Durch die Bereicherung zeigen die qualitativen Ergebnisse eine verbesserte Ausdruckskraft der Szenengraphen, was zu intuitiveren und sinnvolleren Bildbeschreibungen führt. Unsere Ergebnisse bestätigen die Wirksamkeit der Erweiterung von Szenengraphen durch allgemeine Sachkenntnis mittels heterogener Wissensgraphen. Diese Arbeit legt eine grundlegende Basis für zukünftige Forschung im Bereich der wissensbasierten visuellen Verständnis- und Schlussfolgerungsfähigkeit.