HyperAIHyperAI
vor 11 Tagen

KnowZRel: Basiswissenbasierte Zero-Shot-Beziehungssuche für die generalisierte Szenengraphenerzeugung

{Edward Curry, John G. Breslin, M. Jaleed Khan}
Abstract

Ein Scene Graph ist eine zentrale Bildrepräsentation für visuelles Schließen. Die Generalisierbarkeit von Methoden zur Generierung von Scene Graphs (SGG) ist entscheidend für zuverlässiges Schließen und praktische Anwendbarkeit in der Realwelt. Allerdings beschränken unbalancierte Trainingsdatensätze diese Generalisierbarkeit, da sie sinnvolle visuelle Beziehungen unterrepräsentieren. Aktuelle SGG-Methoden, die externe Wissensquellen nutzen, stoßen auf Einschränkungen aufgrund dieser Unbalanciertheit oder begrenzter Abdeckung von Beziehungen, was ihre Schließ- und Generalisierungsfähigkeit beeinträchtigt. Wir stellen einen neuartigen neurosymbolischen Ansatz vor, der datengetriebene Objekterkennung mit einer auf heterogenen Wissensgraphen basierenden Objektkorrektur sowie der zero-shot-Abfrage visueller Beziehungen verbindet und die lose Kopplung zwischen neuronalen und symbolischen Komponenten hervorhebt. Diese Kombination überwindet die Beschränkungen unbalancierter Trainingsdatensätze bei der Generierung von Scene Graphs und ermöglicht effektive Vorhersage bisher nicht gesehener visueller Beziehungen. Objekte werden mittels eines regionenbasierten tiefen neuronalen Netzes erkannt und anhand ihrer räumlichen und strukturellen Ähnlichkeit verfeinert. Anschließend werden paarweise visuelle Beziehungen mittels eines heterogenen Wissensgraphen abgerufen. Redundante und irrelevante visuelle Beziehungen werden anhand der Ähnlichkeit von Beziehungsbezeichnungen und Knoten-Embeddings eliminiert. Schließlich werden die visuellen Beziehungen miteinander verknüpft, um den Scene Graph zu generieren. Der eingesetzte heterogene Wissensgraph kombiniert diverse Wissensquellen und bietet umfassendes Alltagswissen über Objekte und ihre Interaktionen in der Welt. Unser Ansatz wurde anhand der Benchmark-Datenbank Visual Genome und der zero-shot Recall-Metrik (zR@K) evaluiert und erreicht eine Verbesserung um 59,96 % gegenüber bestehenden State-of-the-Art-Methoden, was seine Effektivität bei generalisierter SGG unterstreicht. Der Schritt der Objektkorrektur verbesserte die Objekterkennungsleistung signifikant um 57,1 %. Zusätzliche Evaluationen anhand der GQA-Datenbank bestätigen die Übertragbarkeit unseres Ansatzes auf verschiedene Datensätze. Wir verglichen zudem verschiedene Wissensquellen und Embedding-Modelle, um eine optimale Kombination für zero-shot-SGG zu ermitteln. Der Quellcode ist unter https://github.com/jaleedkhan/zsrr-sgg verfügbar.

KnowZRel: Basiswissenbasierte Zero-Shot-Beziehungssuche für die generalisierte Szenengraphenerzeugung | Neueste Forschungsarbeiten | HyperAI