HyperAIHyperAI

Command Palette

Search for a command to run...

Rethinking Diversifizierter und Diskriminativer Vorschlagenerstellung für die visuelle Verortung

Zhou Yu Jun Yu* Chenchao Xiang Zhou Zhao Qi Tian Dacheng Tao

Zusammenfassung

Visuelles Verorten (Visual Grounding) zielt darauf ab, ein Objekt in einem Bild basierend auf einer textuellen Abfrage zu lokalisieren. Es wurden verschiedene Ansätze für visuelles Verorten vorgeschlagen, und das Problem kann in einen allgemeinen Rahmen unterteilt werden: Vorschlagsgenerierung, multimodale Merkmalsrepräsentation und Vorschlagsrangfolge. Von diesen drei Modulen konzentrieren sich die meisten bestehenden Ansätze auf die letzten beiden, wobei die Bedeutung der Vorschlagsgenerierung oft vernachlässigt wird. In dieser Arbeit überdenken wir das Problem, welche Eigenschaften eine gute Vorschlagsgenerator auszeichnen. Wir führen Vielfalt und Diskriminierbarkeit gleichzeitig bei der Generierung von Vorschlägen ein und schlagen hierbei das Modell der diversifizierten und diskriminativen Vorschlagssnetze (Diversified and Discriminative Proposal Networks, DDPN) vor. Basierend auf den durch DDPN generierten Vorschlägen schlagen wir ein leistungsstarkes Basismodell für visuelles Verorten vor und evaluieren es anhand von vier Benchmark-Datensätzen. Die experimentellen Ergebnisse zeigen, dass unser Modell erhebliche Verbesserungen auf allen getesteten Datensätzen liefert (z.B., eine Steigerung um 18,8 % im ReferItGame-Datensatz und um 8,2 % im Flickr30k Entities-Datensatz im Vergleich zu den bisherigen Stand der Technik).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Rethinking Diversifizierter und Diskriminativer Vorschlagenerstellung für die visuelle Verortung | Paper | HyperAI