Visuelle semantische Reasoning für die Bild-Text-Zuordnung

Die Bild-Text-Übereinstimmung ist ein aktuelles Forschungsthema, das die Bereiche Vision und Sprache verbindet. Sie bleibt herausfordernd, da die derzeitigen Bildrepräsentationen oft fehlende globale semantische Konzepte aufweisen, wie sie in den zugehörigen Textbeschreibungen vorhanden sind. Um dieses Problem anzugehen, schlagen wir ein einfaches und interpretierbares Schlussfolgerungsmodell vor, das visuelle Repräsentationen erzeugt, welche zentrale Objekte und semantische Konzepte einer Szene erfassen. Konkret bauen wir zunächst Verbindungen zwischen Bildregionen auf und führen mit Graph Convolutional Networks (GCN) Schlussfolgerungen durch, um Merkmale mit semantischen Beziehungen zu generieren. Anschließend schlagen wir vor, eine Gating- und Gedächtnismechanismus einzusetzen, um globale semantische Schlussfolgerungen auf diesen beziehungsangereicherten Merkmalen durchzuführen, diskriminative Informationen auszuwählen und schrittweise eine Repräsentation für die gesamte Szene zu erzeugen. Experimente bestätigen, dass unsere Methode eine neue State-of-the-Art-Leistung für die Bild-Text-Übereinstimmung auf den Datensätzen MS-COCO und Flickr30K erzielt. Sie übertrifft die derzeit beste Methode um 6,8 % relativ bei der Bildretrieval-Aufgabe und um 4,8 % relativ bei der Beschreibungretrieval-Aufgabe auf MS-COCO (Recall@1 mit 1K-Testset). Auf Flickr30K verbessert unser Modell die Bildretrieval-Leistung um 12,6 % relativ und die Beschreibungretrieval-Leistung um 5,8 % relativ (Recall@1). Der Quellcode ist unter https://github.com/KunpengLi1994/VSRN verfügbar.