Natürliche Sprache-basierte Objektretrieval

In dieser Arbeit befassen wir uns mit der Aufgabe der natürlichsprachlichen Objektlokalisierung, bei der ein Zielobjekt innerhalb eines gegebenen Bildes auf Grundlage einer natürlichsprachlichen Abfrage des Objekts lokalisiert wird. Die natürlichsprachliche Objektlokalisierung unterscheidet sich von der textbasierten Bildsuche, da sie räumliche Informationen über die Objekte in der Szene und den globalen Kontext der Szene berücksichtigt. Um dieses Problem anzugehen, schlagen wir ein neues Modell vor, das als Bewertungsfunktion für Kandidatenboxen zur Objektlokalisierung dient: das Spatial Context Recurrent ConvNet (SCRC)-Modell. Dieses Modell integriert räumliche Konfigurationen und globale szenebezogene Kontextinformationen in das Netzwerk. Unser Modell verarbeitet Abfragetext, lokale Bilddeskriptoren, räumliche Konfigurationen und globale Kontextmerkmale durch ein rekurrentes Netzwerk, gibt die Wahrscheinlichkeit des Abfragetexts unter der Bedingung jeder Kandidatenbox als Bewertung für die Box aus und kann visuell-linguistisches Wissen vom Bereich der Bildunterschriften zu unserer Aufgabe übertragen. Experimentelle Ergebnisse zeigen, dass unsere Methode sowohl lokale als auch globale Informationen effektiv nutzt und signifikant bessere Ergebnisse als frühere Baseline-Methoden auf verschiedenen Datensätzen und Szenarien erzielt. Darüber hinaus kann unser Ansatz große visuelle und sprachliche Datensätze für den Wissenstransfer nutzen.