vor 2 Monaten

Duales Faltweg-Konvolutionelles Bild-Text-Embedding mit Instanzverlust

Zheng, Zhedong ; Zheng, Liang ; Garrett, Michael ; Yang, Yi ; Xu, Mingliang ; Shen, Yi-Dong

Abstract

Das Zuordnen von Bildern und Sätzen erfordert ein tiefes Verständnis beider Modalitäten. In dieser Arbeit schlagen wir ein neues System vor, das Bilder und Texte diskriminativ in einen gemeinsamen visuellen-tekstuellen Raum einbetten soll. In diesem Bereich wenden die meisten bestehenden Arbeiten den Rangverlust (ranking loss) an, um positive Bild-/Textpaare zusammenzuführen und negative Paare voneinander zu trennen. Allerdings ist die direkte Anwendung des Rangverlusts für das Netzwerklernen schwierig, da sie von zwei heterogenen Merkmalen ausgeht, um eine intermodale Beziehung aufzubauen. Um dieses Problem zu lösen, schlagen wir den Instanzverlust (instance loss) vor, der die intramodale Datenverteilung explizit berücksichtigt. Dieser basiert auf der unbeaufsichtigten Annahme, dass jede Bild-/Textgruppe als Klasse betrachtet werden kann. Somit kann das Netzwerk die feine Granularität aus jeder Bild-/Textgruppe lernen. Die Experimente zeigen, dass der Instanzverlust eine bessere Gewichtsinitialisierung für den Rangverlust bietet, sodass diskriminativere Einbettungen gelernt werden können. Darüber hinaus verwenden bestehende Arbeiten in der Regel fertige Merkmale wie word2vec und feste visuelle Merkmale. Als kleiner Beitrag konstruiert diese Arbeit daher ein end-to-end-Dualpfad-Faltungsnetzwerk (end-to-end dual-path convolutional network), um die Bild- und Textrepräsentationen zu lernen. Das end-to-end-Lernen ermöglicht es dem System, direkt aus den Daten zu lernen und die Überwachung vollständig zu nutzen. Auf zwei generischen Retrieval-Datensätzen (Flickr30k und MSCOCO) zeigen Experimente, dass unsere Methode im Vergleich zu den Stand-der-Technik-Methoden wettbewerbsfähige Genauigkeit erzielt. Zudem verbessern wir in der sprachbasierten Personenerkennung den Stand der Technik erheblich. Der Code wurde öffentlich zugänglich gemacht.