HyperAIHyperAI

Command Palette

Search for a command to run...

Duales Faltweg-Konvolutionelles Bild-Text-Embedding mit Instanzverlust

Zhedong Zheng Liang Zheng Michael Garrett Yi Yang Mingliang Xu Yi-Dong Shen

Zusammenfassung

Das Zuordnen von Bildern und Sätzen erfordert ein tiefes Verständnis beider Modalitäten. In dieser Arbeit schlagen wir ein neues System vor, das Bilder und Texte diskriminativ in einen gemeinsamen visuellen-tekstuellen Raum einbetten soll. In diesem Bereich wenden die meisten bestehenden Arbeiten den Rangverlust (ranking loss) an, um positive Bild-/Textpaare zusammenzuführen und negative Paare voneinander zu trennen. Allerdings ist die direkte Anwendung des Rangverlusts für das Netzwerklernen schwierig, da sie von zwei heterogenen Merkmalen ausgeht, um eine intermodale Beziehung aufzubauen. Um dieses Problem zu lösen, schlagen wir den Instanzverlust (instance loss) vor, der die intramodale Datenverteilung explizit berücksichtigt. Dieser basiert auf der unbeaufsichtigten Annahme, dass jede Bild-/Textgruppe als Klasse betrachtet werden kann. Somit kann das Netzwerk die feine Granularität aus jeder Bild-/Textgruppe lernen. Die Experimente zeigen, dass der Instanzverlust eine bessere Gewichtsinitialisierung für den Rangverlust bietet, sodass diskriminativere Einbettungen gelernt werden können. Darüber hinaus verwenden bestehende Arbeiten in der Regel fertige Merkmale wie word2vec und feste visuelle Merkmale. Als kleiner Beitrag konstruiert diese Arbeit daher ein end-to-end-Dualpfad-Faltungsnetzwerk (end-to-end dual-path convolutional network), um die Bild- und Textrepräsentationen zu lernen. Das end-to-end-Lernen ermöglicht es dem System, direkt aus den Daten zu lernen und die Überwachung vollständig zu nutzen. Auf zwei generischen Retrieval-Datensätzen (Flickr30k und MSCOCO) zeigen Experimente, dass unsere Methode im Vergleich zu den Stand-der-Technik-Methoden wettbewerbsfähige Genauigkeit erzielt. Zudem verbessern wir in der sprachbasierten Personenerkennung den Stand der Technik erheblich. Der Code wurde öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp