Rethinking Diversifizierter und Diskriminativer Vorschlagenerstellung für die visuelle Verortung

Visuelles Verorten (Visual Grounding) zielt darauf ab, ein Objekt in einem Bild basierend auf einer textuellen Abfrage zu lokalisieren. Es wurden verschiedene Ansätze für visuelles Verorten vorgeschlagen, und das Problem kann in einen allgemeinen Rahmen unterteilt werden: Vorschlagsgenerierung, multimodale Merkmalsrepräsentation und Vorschlagsrangfolge. Von diesen drei Modulen konzentrieren sich die meisten bestehenden Ansätze auf die letzten beiden, wobei die Bedeutung der Vorschlagsgenerierung oft vernachlässigt wird. In dieser Arbeit überdenken wir das Problem, welche Eigenschaften eine gute Vorschlagsgenerator auszeichnen. Wir führen Vielfalt und Diskriminierbarkeit gleichzeitig bei der Generierung von Vorschlägen ein und schlagen hierbei das Modell der diversifizierten und diskriminativen Vorschlagssnetze (Diversified and Discriminative Proposal Networks, DDPN) vor. Basierend auf den durch DDPN generierten Vorschlägen schlagen wir ein leistungsstarkes Basismodell für visuelles Verorten vor und evaluieren es anhand von vier Benchmark-Datensätzen. Die experimentellen Ergebnisse zeigen, dass unser Modell erhebliche Verbesserungen auf allen getesteten Datensätzen liefert (z.B., eine Steigerung um 18,8 % im ReferItGame-Datensatz und um 8,2 % im Flickr30k Entities-Datensatz im Vergleich zu den bisherigen Stand der Technik).