vor 7 Monaten

Zusammenfassung

In dieser Arbeit befassen wir uns mit der Aufgabe der natürlichsprachlichen Objektlokalisierung, bei der ein Zielobjekt innerhalb eines gegebenen Bildes auf Grundlage einer natürlichsprachlichen Abfrage des Objekts lokalisiert wird. Die natürlichsprachliche Objektlokalisierung unterscheidet sich von der textbasierten Bildsuche, da sie räumliche Informationen über die Objekte in der Szene und den globalen Kontext der Szene berücksichtigt. Um dieses Problem anzugehen, schlagen wir ein neues Modell vor, das als Bewertungsfunktion für Kandidatenboxen zur Objektlokalisierung dient: das Spatial Context Recurrent ConvNet (SCRC)-Modell. Dieses Modell integriert räumliche Konfigurationen und globale szenebezogene Kontextinformationen in das Netzwerk. Unser Modell verarbeitet Abfragetext, lokale Bilddeskriptoren, räumliche Konfigurationen und globale Kontextmerkmale durch ein rekurrentes Netzwerk, gibt die Wahrscheinlichkeit des Abfragetexts unter der Bedingung jeder Kandidatenbox als Bewertung für die Box aus und kann visuell-linguistisches Wissen vom Bereich der Bildunterschriften zu unserer Aufgabe übertragen. Experimentelle Ergebnisse zeigen, dass unsere Methode sowohl lokale als auch globale Informationen effektiv nutzt und signifikant bessere Ergebnisse als frühere Baseline-Methoden auf verschiedenen Datensätzen und Szenarien erzielt. Darüber hinaus kann unser Ansatz große visuelle und sprachliche Datensätze für den Wissenstransfer nutzen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Computer Vision

Objekterkennung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Computer Vision

Objekterkennung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Natürliche Sprache-basierte Objektretrieval

Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Natürliche Sprache-basierte Objektretrieval

Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Natürliche Sprache-basierte Objektretrieval

Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters