HyperAIHyperAI

Command Palette

Search for a command to run...

Natürliche Sprache-basierte Objektretrieval

Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell

Zusammenfassung

In dieser Arbeit befassen wir uns mit der Aufgabe der natürlichsprachlichen Objektlokalisierung, bei der ein Zielobjekt innerhalb eines gegebenen Bildes auf Grundlage einer natürlichsprachlichen Abfrage des Objekts lokalisiert wird. Die natürlichsprachliche Objektlokalisierung unterscheidet sich von der textbasierten Bildsuche, da sie räumliche Informationen über die Objekte in der Szene und den globalen Kontext der Szene berücksichtigt. Um dieses Problem anzugehen, schlagen wir ein neues Modell vor, das als Bewertungsfunktion für Kandidatenboxen zur Objektlokalisierung dient: das Spatial Context Recurrent ConvNet (SCRC)-Modell. Dieses Modell integriert räumliche Konfigurationen und globale szenebezogene Kontextinformationen in das Netzwerk. Unser Modell verarbeitet Abfragetext, lokale Bilddeskriptoren, räumliche Konfigurationen und globale Kontextmerkmale durch ein rekurrentes Netzwerk, gibt die Wahrscheinlichkeit des Abfragetexts unter der Bedingung jeder Kandidatenbox als Bewertung für die Box aus und kann visuell-linguistisches Wissen vom Bereich der Bildunterschriften zu unserer Aufgabe übertragen. Experimentelle Ergebnisse zeigen, dass unsere Methode sowohl lokale als auch globale Informationen effektiv nutzt und signifikant bessere Ergebnisse als frühere Baseline-Methoden auf verschiedenen Datensätzen und Szenarien erzielt. Darüber hinaus kann unser Ansatz große visuelle und sprachliche Datensätze für den Wissenstransfer nutzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp