HyperAIHyperAI

Command Palette

Search for a command to run...

Bild und Text mit 2-Wege-Netzen verknüpfen

Aviv Eisenschtat; Lior Wolf

Zusammenfassung

Das Verknüpfen zweier Datenquellen ist ein grundlegendes Baustein in zahlreichen Problemen der Computer Vision. Die kanonische Korrelationsanalyse (CCA) erreicht dies, indem sie einen linearen Optimierer verwendet, um die Korrelation zwischen den beiden Ansichten zu maximieren. Neueste Arbeiten nutzen nichtlineare Modelle, darunter auch Techniken des tiefen Lernens, die den CCA-Verlust in einem bestimmten Merkmalsraum optimieren. In dieser Arbeit stellen wir eine neuartige, bidirektionale neuronale Netzwerkarchitektur für die Aufgabe des Vektormatchings aus zwei Datenquellen vor. Unser Ansatz setzt zwei gekoppelte neuronale Netzwerkkanaele ein, die die beiden Ansichten in einen gemeinsamen, maximal korrelierten Raum projizieren, wobei der Euklidische Verlust verwendet wird. Wir zeigen einen direkten Zusammenhang zwischen dem korrelationsbasierten Verlust und dem Euklidischen Verlust, was es ermöglicht, den Euklidischen Verlust zur Maximierung der Korrelation zu verwenden. Um übliche Probleme der Euklidischen Regressionsoptimierung zu überwinden, passen wir bekannte Techniken wie Batch Normalisierung und Dropout an unser Problem an. Wir präsentieren Stand-of-the-Art-Ergebnisse bei einer Reihe von Matching-Aufgaben in der Computer Vision, einschließlich dem MNIST-Bildmatching und dem Satz-Bild-Matching auf den Datensätzen Flickr8k, Flickr30k und COCO.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp