3SHNet: Steigerung der Bild-Satz-Abfrage durch visuelle semantische-räumliche selbst-hervorhebende Mechanismen

In diesem Paper stellen wir ein neuartiges visuelles semantisch-raumliches Selbst-Hervorhebungs-Netzwerk (3SHNet) für die hochpräzise, hocheffiziente und hochgeneralisierbare Bild-Satz-Abfrage vor. 3SHNet hebt die auffälligen Merkmale prominenter Objekte sowie deren räumliche Positionen innerhalb der visuellen Modalität hervor, wodurch die Integration von visuellen Semantik-Raum-Interaktionen ermöglicht wird, während die Unabhängigkeit zwischen den beiden Modalitäten gewahrt bleibt. Diese Integration kombiniert Objektregionen effektiv mit den entsprechenden semantischen und Positionsanordnungen, die aus der Segmentierung abgeleitet werden, um die visuelle Repräsentation zu verbessern. Die Modality-Unabhängigkeit garantiert gleichzeitig Effizienz und Generalisierbarkeit. Darüber hinaus nutzt 3SHNet strukturierte kontextuelle visuelle Szeneninformationen aus der Segmentierung, um entweder lokale (regionenbasierte) oder globale (gitterbasierte) Leitlinien bereitzustellen und eine präzise hybride Ebene der Abfrage zu erreichen. Umfangreiche Experimente auf den Benchmarks MS-COCO und Flickr30K bestätigen die herausragenden Leistungsmerkmale, die Inferenzeffizienz und die Generalisierbarkeit des vorgeschlagenen 3SHNet im Vergleich zu aktuellen state-of-the-art-Methoden. Insbesondere erreichen wir auf dem größeren MS-COCO 5K-Testset Verbesserungen um 16,3 %, 24,8 % und 18,3 % bezüglich des rSum-Scores im Vergleich zu den besten aktuellen Methoden mit unterschiedlichen Bildrepräsentationen, wobei die optimale Retrieval-Effizienz beibehalten wird. Zudem verbessert sich unsere Leistung in Bezug auf die Cross-Dataset-Generalisierung um 18,6 %. Die Daten und der Code sind unter https://github.com/XuriGe1995/3SHNet verfügbar.