Bild und Text mit 2-Wege-Netzen verknüpfen

Das Verknüpfen zweier Datenquellen ist ein grundlegendes Baustein in zahlreichen Problemen der Computer Vision. Die kanonische Korrelationsanalyse (CCA) erreicht dies, indem sie einen linearen Optimierer verwendet, um die Korrelation zwischen den beiden Ansichten zu maximieren. Neueste Arbeiten nutzen nichtlineare Modelle, darunter auch Techniken des tiefen Lernens, die den CCA-Verlust in einem bestimmten Merkmalsraum optimieren. In dieser Arbeit stellen wir eine neuartige, bidirektionale neuronale Netzwerkarchitektur für die Aufgabe des Vektormatchings aus zwei Datenquellen vor. Unser Ansatz setzt zwei gekoppelte neuronale Netzwerkkanaele ein, die die beiden Ansichten in einen gemeinsamen, maximal korrelierten Raum projizieren, wobei der Euklidische Verlust verwendet wird. Wir zeigen einen direkten Zusammenhang zwischen dem korrelationsbasierten Verlust und dem Euklidischen Verlust, was es ermöglicht, den Euklidischen Verlust zur Maximierung der Korrelation zu verwenden. Um übliche Probleme der Euklidischen Regressionsoptimierung zu überwinden, passen wir bekannte Techniken wie Batch Normalisierung und Dropout an unser Problem an. Wir präsentieren Stand-of-the-Art-Ergebnisse bei einer Reihe von Matching-Aufgaben in der Computer Vision, einschließlich dem MNIST-Bildmatching und dem Satz-Bild-Matching auf den Datensätzen Flickr8k, Flickr30k und COCO.