HyperAIHyperAI
vor 11 Tagen

Ein Tiefes lokales und globales Szenengraphen-Abgleichs für die Bild-Text-Recherche

Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin
Ein Tiefes lokales und globales Szenengraphen-Abgleichs für die Bild-Text-Recherche
Abstract

Herkömmliche Ansätze zur Bild-Text-Retrieval konzentrieren sich hauptsächlich auf die Indizierung visueller Objekte, die in Bildern erscheinen, und ignorieren dabei die Wechselwirkungen zwischen diesen Objekten. Diese Objektvorkommen und deren Interaktionen sind im Kontext der Bild-Text-Übereinstimmung gleichwertig und von gleicher Bedeutung, da sie häufig im zugehörigen Text erwähnt werden. Die Darstellung mittels Szenengraphen stellt eine geeignete Methode für die Herausforderung der Bild-Text-Übereinstimmung dar und erzielte gute Ergebnisse, da sie die zwischenobjektlichen Beziehungen effektiv erfassen kann. Sowohl Bilder als auch Texte werden auf Szenengraphenebene repräsentiert, wodurch die Retrieval-Aufgabe als Szenengraphen-Übereinstimmungsproblem formuliert wird. In diesem Artikel stellen wir das Local and Global Scene Graph Matching (LGSGM)-Modell vor, das die state-of-the-art-Methode durch die Integration eines zusätzlichen Graphen-Convolutional Networks (GCN) zur Erfassung der globalen Strukturinformationen eines Graphen verbessert. Konkret werden für ein Paar von Szenengraphen – einem Bild und seiner Beschreibung – zwei getrennte Modelle eingesetzt, um die Merkmale der Knoten und Kanten jeweils des Graphen zu lernen. Anschließend wird ein Siamese-Struktur-basiertes Graphen-Convolutional-Modell verwendet, um die Graphen in Vektorform zu kodieren. Schließlich kombinieren wir die Graph-Ebene und die Vektor-Ebene, um die Ähnlichkeit des Bild-Text-Paares zu berechnen. Experimentelle Ergebnisse zeigen, dass unsere Erweiterung durch die Kombination beider Ebenen die Leistung der Basismethode signifikant steigert: Auf dem Flickr30k-Datensatz wird die Recall-Rate um mehr als 10 % erhöht.

Ein Tiefes lokales und globales Szenengraphen-Abgleichs für die Bild-Text-Recherche | Neueste Forschungsarbeiten | HyperAI