Die Bewältigung der Herausforderungen in der Szenengraphengenerierung mittels lokalen zu globalen Wechselwirkungen

In dieser Arbeit suchen wir neue Erkenntnisse zu den zugrundeliegenden Herausforderungen der Aufgabe der Szenengraphgenerierung (Scene Graph Generation, SGG). Eine quantitative und qualitative Analyse des Visual Genome-Datensatzes deutet darauf hin, dass: 1) Mehrdeutigkeit besteht – selbst wenn Beziehungen zwischen Objekten dasselbe Objekt (oder Prädikat) enthalten, sind sie visuell oder semantisch nicht notwendigerweise ähnlich; 2) Asymmetrie vorliegt – obwohl die Natur einer Beziehung eine Richtung impliziert, wurde diese in früheren Studien unzureichend berücksichtigt; und 3) höhere Ordnungskontexte von Bedeutung sind – die Nutzung der Identitäten bestimmter Graph-Elemente kann zur Generierung präziser Szenengraphen beitragen. Ausgehend von dieser Analyse entwickeln wir einen neuen SGG-Framework namens Local-to-Global Interaction Networks (LOGIN). Lokal extrahieren Interaktionen die essentiellen Merkmale zwischen drei Instanzen: Subjekt, Objekt und Hintergrund. Die Richtungsawareness wird durch eine explizite Einschränkung der Eingabereihenfolge von Subjekt und Objekt in das Netzwerk integriert. Global kodieren Interaktionen die Kontexte zwischen allen Komponenten des Graphen (d. h. Knoten und Kanten). Schließlich wird eine Attract & Repel-Loss-Funktion eingesetzt, um die Verteilung der Prädikat-Embeddings feinabzustimmen. Durch diese Architektur ermöglicht unser Framework die Vorhersage von Szenengraphen in bottom-up-Manier und nutzt dabei das mögliche Komplementaritätspotential. Um zu quantifizieren, wie gut LOGIN die Richtungsasymmetrie von Beziehungen erfasst, wird zudem eine neue diagnostische Aufgabe namens Bidirectional Relationship Classification (BRC) vorgeschlagen. Experimentelle Ergebnisse zeigen, dass LOGIN im Vergleich zu bestehenden Methoden die Unterscheidung der relationalen Richtung erfolgreich bewältigt (im BRC-Aufgabenset), während es gleichzeitig state-of-the-art-Ergebnisse auf dem Visual Genome-Benchmark (im SGG-Aufgabenset) erzielt.