Von Knoten zu Graph: Gemeinsame Inferenz auf visuell-semantischen Relationen-Graphen für Zero-Shot-Detektion

Zero-Shot-Detektion (ZSD), die darauf abzielt, unvertraute Objekte in komplexen Szenen zu lokalisieren und zu erkennen, nutzt üblicherweise allein die visuelle und semantische Information einzelner Objekte. Doch das menschliche Szenenverständnis geht über die isolierte Erkennung einzelner Objekte hinaus: Kontextinformationen zwischen mehreren Objekten – wie visuelle Beziehungsstrukturen (z. B. visuell ähnliche Objekte) oder semantische Beziehungsstrukturen (z. B. gemeinsame Auftretenshäufigkeiten) – sind von entscheidender Bedeutung für die Gesamtinterpretation einer visuellen Szene. In diesem Artikel zeigen wir, dass kontextuelle Information in der ZSD eine noch größere Rolle spielt als in der traditionellen Objektdetektion. Um diese Informationen optimal zu nutzen, schlagen wir einen neuen end-to-end-ZSD-Ansatz namens GraphAligningNetwork (GRAN) vor, der auf graphbasiertem Modellieren und Schlussfolgern basiert und gleichzeitig die visuelle und semantische Information mehrerer Objekte statt einzelner Objekte berücksichtigt. Konkret formulieren wir einen Visual Relational Graph (VRG) und einen Semantic Relational Graph (SRG), wobei die Knoten jeweils die Objekte in dem Bild und die semantischen Repräsentationen der Klassen darstellen, während die Kanten die Relevanz zwischen den Knoten in den jeweiligen Graphen repräsentieren. Um den wechselseitigen Einfluss beider Modalitäten zu erfassen, werden die beiden Graphen weiterhin zu einem heterogenen Visual-Semantic Relational Graph (VSRG) verschmolzen, wobei Modulübersetzer für die beiden Teilgraphen entworfen wurden, um die Modalitäten in einen gemeinsamen Raum zu transformieren, sodass eine Kommunikation möglich wird, und zudem wird ein Nachrichtenaustausch zwischen den Knoten durchgesetzt, um deren Repräsentationen zu verfeinern. Umfassende Experimente auf dem MSCOCO-Datensatz belegen den Vorteil unseres Ansatzes gegenüber aktuellen State-of-the-Art-Verfahren, und qualitative Analysen stützen die Wirksamkeit des Einsatzes kontextueller Information.