HyperAIHyperAI

Command Palette

Search for a command to run...

Von Knoten zu Graph: Gemeinsame Inferenz auf visuell-semantischen Relationen-Graphen für Zero-Shot-Detektion

Xilin Chen Ruiping Wang Hui Nie

Zusammenfassung

Zero-Shot-Detektion (ZSD), die darauf abzielt, unvertraute Objekte in komplexen Szenen zu lokalisieren und zu erkennen, nutzt üblicherweise allein die visuelle und semantische Information einzelner Objekte. Doch das menschliche Szenenverständnis geht über die isolierte Erkennung einzelner Objekte hinaus: Kontextinformationen zwischen mehreren Objekten – wie visuelle Beziehungsstrukturen (z. B. visuell ähnliche Objekte) oder semantische Beziehungsstrukturen (z. B. gemeinsame Auftretenshäufigkeiten) – sind von entscheidender Bedeutung für die Gesamtinterpretation einer visuellen Szene. In diesem Artikel zeigen wir, dass kontextuelle Information in der ZSD eine noch größere Rolle spielt als in der traditionellen Objektdetektion. Um diese Informationen optimal zu nutzen, schlagen wir einen neuen end-to-end-ZSD-Ansatz namens GraphAligningNetwork (GRAN) vor, der auf graphbasiertem Modellieren und Schlussfolgern basiert und gleichzeitig die visuelle und semantische Information mehrerer Objekte statt einzelner Objekte berücksichtigt. Konkret formulieren wir einen Visual Relational Graph (VRG) und einen Semantic Relational Graph (SRG), wobei die Knoten jeweils die Objekte in dem Bild und die semantischen Repräsentationen der Klassen darstellen, während die Kanten die Relevanz zwischen den Knoten in den jeweiligen Graphen repräsentieren. Um den wechselseitigen Einfluss beider Modalitäten zu erfassen, werden die beiden Graphen weiterhin zu einem heterogenen Visual-Semantic Relational Graph (VSRG) verschmolzen, wobei Modulübersetzer für die beiden Teilgraphen entworfen wurden, um die Modalitäten in einen gemeinsamen Raum zu transformieren, sodass eine Kommunikation möglich wird, und zudem wird ein Nachrichtenaustausch zwischen den Knoten durchgesetzt, um deren Repräsentationen zu verfeinern. Umfassende Experimente auf dem MSCOCO-Datensatz belegen den Vorteil unseres Ansatzes gegenüber aktuellen State-of-the-Art-Verfahren, und qualitative Analysen stützen die Wirksamkeit des Einsatzes kontextueller Information.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp